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本 书 讲述 了 Java 并 发 API 最 重要 的 元 素 ， 展 示 了 如 何在 实际 开发 中 使 用 它们 。 这 些 元 素 如 

IR 2 


。 执行 器 框架 ， 用 于 控制 大 量 任 务 的 执行 。 

。Phaser 类 ， 用 于 执行 可 划分 为 多 个 阶段 的 任务 。 

。 Fork/Join 框 架 ， 用 于 执行 采用 分 治 法 解决 问题 的 任务 。 

。 流 API， 用 于 处 理 大 型 数据 源 ， 包 括 新 的 反应 流 。 

。 并 发 数据 结构 ， 用 于 在 并 发 应 用 程序 中 存储 数据 。 

。 同步 机 制 ， 用 于 组 织 并 发 任务 。 
多 


此 外 ，Java 并 发 API 还 包含 更 多 内 容 ， 包 括 设计 并 发 应 用 程序 的 方法 论 、 设 计 模 式 、 实 现 民 好 并 发 应 用 程 
序 的 提示 和 技巧 、 测 试 并 发 应 用 程序 的 工具 和 方法 ， 以 及 采用 其 他 面向 Java 虚 拟 机 的 语言 (例如 Clojure、 
Groovy 和 Scala) 实现 并 发 应 用 程序 的 方法 。 


本 书 内 容 


FIR, “第 一 步 : 并 发 设计 原理 ”。 这 一 章 将 介绍 并 发 应 用 程序 的 设计 原理 。 你 还 将 了 解 到 并 发 应 用 程序 
可 能 出 现 的 问题 ， 以 及 设计 并 发 应 if 字 的 方法 论 ， 同时 还 会 学 到 一 些 设计 模式 、 提 示 和 技巧 。 


第 2 章 , “使用 基本 元素 . Thread 和 Runnable ”。 这 一 章 将 解释 如 何 采 用 Java 语 言 中 最 基本 的 元 素 
(Runnable 接口 和 Thread É) 来 实现 并 发 应 用 程序 。 有 了 这 些 元 素 ， 你 可 以 创建 -个 与 实际 执行 线 
程 并 行 执 行 的 新 执行 线程 。 
第 3 章 , “管理 大 量 线程 : 执行 器 ”。 这 一 章 将 介绍 执行 器 框架 的 基本 原理 。 该 框架 让 你 能 够 使 
程 ， 而 无 须 创 建 或 管理 它们 。 你 将 实现 k -最 近邻 算法 和 一 个 基本 的 客户 端 /服务 器 应 用 程序 。 


第 4 章 , “充分 利用 执行 器 >” 。 这 一 章 将 探讨 ， an 包括 为 了 在 一 段 延 迟 之 后 或 每 隔 一 定 
时 间 执 行 任务 而 进行 的 任务 撤销 和 调度 。 你 将 实 高 级 客户 端 /服务 器 应 用 程序 和 一 个 新 闻 阅 读 器 。 


第 5 章 ,“ 从 任务 获取 数据 : Callable 接口 与 Future 接口 ”。 这 一 章 将 介绍 如 何在 执行 器 中 处 理 采用 
callable 与 Future 接口 返回 结果 的 任务 。 你 将 实现 一 个 最 佳 匹 me 法 以 及 一 个 构建 倒 排 索引 的 应 用 程 
序 。 


第 6 章 , “运行 分 为 多 阶段 的 任务 : Phaser 类 ”。 这 这 一 草 将 介 站 绍 如 何 使 用 Phaser 类 来 并 发 执行 那些 可 分 
为 多 个 阶段 的 任务 。 你 将 实现 关键 字 抽取 算法 和 遗传 算法 


BE 


ur 


大 量 的 线 


II 


第 7 章 , “优化 分 治 解决 方案 ; Fork/Join 框 架 *。 这 一 章 将 介绍 如 何 使 用 一 种 特殊 的 执行 器 ， 该 执行 器 号 全 对 
可 以 使 用 分 治 法 解决 的 问题 进行 了 优化 ， 这 就 是 Fork/Join 框 架 及 其 工作 窃取 (work-stealing) 算法 。 你 将 
实现 k-means 聚 类 算法 、 数 据 筛 选 算法 以 及 归并 排序 算法 。 


第 8 章 , “使 用 并 行 流 处 理 大 规模 数据 集 MapReduce 模 型 ”。 这 一 章 将 介绍 如 何 采 用 流 来 处 理 大 规模 数据 
ane o 可 使 API A RARE Map Reduce 程序 。 你 将 实现 一 个 数值 汇总 算法 和 
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第 9 章 , “使 用 并 行 流 处 理 大 规模 数据 集 MapCollect 模 型 ”。 这 R ER 使用 流 API 中 的 

co11ect( ) 方法 对 数据 流 执行 可 变 约 简 (mutable reduction) 操作 ， 将 其 转换 为 不 同 的 数据 结构 ， 2 
括 在 Co11ectors 类 中 预定 义 的 一 些 收 集 器 。 你 将 5 E EDER 、 
推荐 系统 ， 以 及 计算 社交 网 络 中 A SEER E 的 算法 
第 10 章 , “异步 流 处 理 : 反应 流 ”。 这 一 章 将 解释 如 何 使 用 反应 流 来 实现 并 发 应 用 程序 ， 而 反应 流 则 为 带 
有 非 阻塞 回 压 的 异步 流 ,处 理 定 义 ] 标准 。 这 种 流 的 基本 原理 在 官方 网 站 的 Reactive Streams 介 绍 页 面 上 有 了 明 
确 说 明 ， 而 Java 9 为 其 实现 提供 了 必要 的 基础 接口 。 
第 11 章 , “探究 并 发 数据 结构 和 同步 工具 ”。 这 一 章 将 介绍 如 何 使 用 最 重要 的 并 发 数据 结构 (可 用 于 并 发 
> 程序 而 不 会 导致 数据 竞争 条 件 的 数据 结构 ) ， 以 及 Java 并 发 API 中 用 于 组 织 任务 执行 的 所 有 同步 机 
制 。 
ea “测试 与 监视 并 发 应 用 程序 ”。 这 一 章 将 介绍 如 何 获 得 Java 并 发 API 元 素 〈 线 程 、 锁 、 执 行 器 等 ) 
的 状态 信息 。 你 还 将 学 习 如 何 使 Console 程序 来 监视 并 发 应 用 程序 ， 以 及 如 何 使 用 MultithreadedTC 
库 和 Java Pathfinder 应 用 程序 来 测试 并 发 应 用 程序 。 
第 13 章 ,“JVM 中 的 并 发 处 理 : Clojure ヽ 帯 有 Gpars 誠 的 Groovy 以 及 Scala” 。 这 一 章 将 介绍 如 何 使 用 面向 


Java 虚 WLAS 他 编程 语言 来 实现 并 发 应 用 程序 。 你 将 学 习 如 何 使 用 Clojure、Scala 以 及 带 有 Gpars 库 的 
Groovy 等 编程 语言 所 提供 的 发 元 素 。 


阅读 前 提 

要 学 习 本 书 ， 你 需要 拥有 Java 编 程 语言 的 初中 级 知识 ， 最 好 还 对 并 发 概念 有 
本 书 读者 
如 果 你 是 了 解 并 发 
能 够 充分 利用 计算 
排版 约定 


在 本 你 会 发 现 多 种 文本 样式 ， 用 于 区 分 不 同 种 类 的 信息 。 下 耳 
样式 含义 的 说 明 “ 


正文 的 代码 > 数据 库 表 名 N PEA ARA 如 下 样式 : “modify() 方 法 井 不 是 原 ヨ 的 ， 而 Account 
类 也 不 是 线程 安全 的 。” 


代码 段 的 样式 如 下 。 


us 


本 的 了解 * 


编程 基本 原理 的 Java 开 发 人 员 ， 同 时 又 想 成 为 Java 并 发 API 的 专家 型 用 户 ， 以 便 开 发 出 
机 全 部 硬件 资源 的 最 优化 应 用 程序 ， 那 么 本 书 就 非常 适合 你 。 


是 一 些 文本 样式 的 例子 ， 以 及 对 这 些 


E 


public void task2() { 
section2_1(); 
common0bject2.notify(); 
commonObject1.wait(); 
section2_2(); 


} 


新 术语 和 重点 强调 的 内 容 都 以 黑体 字 表示 。 


S 


@ 此 图 标 表示 警告 或 重要 说 明 。 


的 此 图 标 表示 提示 和 技巧 。 


读者 反馈 


我 们 时 刻 欢迎 你 的 反馈 意见 。 这 可 以 让 我 们 了 解 你 对 本 书 的 看 法 一 一 喜欢 ARDE 欢 什 么 。 你 的 反馈 对 
我 们 很 重要 ， 它 可 以 帮助 我 们 设计 出 真正 让 你 受益 良 多 的 图 书 。 请 将 一 般 | 生 反馈 意见 直接 发 送 至 
feedback@packtpub. com , 井 在 郎 件 的 主題 中 注 明 事 名  WRMNTH-ENEN RK, MAA BH 
写 或 者 参与 编写 3， 请 访问 www.packtpub.comyauthors É 查看 我 们 的 作者 指南 o 


客户 支持 
现在 ， 你 已 经 是 尊贵 的 packt 图 书 所 有 者 了 ， 我 们 通过 以 下 方式 使 你 的 购买 物 有 所 值 。 
下 载 示 例 代 码 


你 可 以 登录 你 的 账户 从 http:/wwwpacktpub.com 下 载 本 书 的 示例 代码 文件 。 如 采 你 从 其 他 地 方 购买 了 本 
$, HUIDA http://www. packtpub.com/support 并 进行 注册 ， 我 们 会 通过 电子 邮件 将 相关 文件 直接 发 送 给 
你 。 可 以 通过 以 下 步骤 来 下 载 代码 文件 。 
(1) 使 用 你 的 电子 邮件 地 址 和 密码 登录 网 站 或 注册 。 


(2) H ERACE A SUPPORT ME E o 


(3) 点 击 Code Downloads & Errata 选 项 。 


(4) 在 Search 框 中 输入 书 名 。 

(5) 选择 要 下 载 代 码 文件 的 那 本 书 。 

(6) 从 下 拉 菜 单 中 选择 购书 途径 。 

(7) 点 击 Code Download 按 钮 。 

下 载 文件 之 后 ， 请 确保 使 用 下 壕 工 具 的 最 新 版 本 来 解压 或 提取 文件 夹 。 
e WinRAR /7-Zip (Windows) ° 


・ Zipeg/iZip/UnRarX (Mac) < 
e 7-Zip/PeaZip (Linux) ° 


GitHub 网 站 上 也 提供 了 本 书 配套 的 代码 ， 可 通过 网 址 https://github.com/PacktPublishing/Mastering- 
fe -Java-9-Second-Edition 下 载 。 //github.com/PacktPublishing/ 还 
可 以 获得 我 们 各 类 图 书 和 视频 的 配套 代码 。 请 检 出 它们 供 你 使 用 


勘误 
尽管 为 确保 内 容 的 准确 性 ， 我 们 已 经 很 谨慎 ， 但 是 错误 仍然 在 所 难免 。 如 果 你 在 书 中 发 现 了 任何 文字 或 代 


码 错误 ， 请 告知 我 们 ， 我 们 将 不 胜 感激 。 这 样 可 以 使 其 他 读者 免 受 同样 的 困惑 ， 能 帮助 我 们 改进 本 的 
后 续 版 本 。 如 果 你 发 现 了 任何 错误 ， 请 访问 http://www.packtpub.com/submit-errata 将 错误 告 知 我 们 。! 你 需 


要 在 该 页 面 上 选 定 这 本 书 ， 然 后 点 击 Errata Submission Form 链 接 ， 输 入 勘误 的 详细 内 容 。 当 勘误 通过 验证 
后 ， 内 容 将 被 接受 ， 而 且 该 勘误 信息 将 上 传 到 我 们 的 网 站 ， 或 者 添加 到 该 书 下 面 Errata 部 分 的 已 有 勘误 表 
列表 当中 。 要 查看 以 前 提交 的 勘误 ， 可 以 访问 https: da packtpub.com/books/content/support ， 在 搜索 栏 
中 输入 本 书 的 名 称 。 相 关 信 息 将 出 现在 Errata 部 分 中 

1 针对 本 书 中 文 版 的 勘误 ， 请 到 http://www.ituring.com.cn/book/2018 查看 和 提交 。 一 一 编者 注 
盗版 问题 
对 所 有 媒体 来 说 ， 互 联网 盗版 都 是 一 个 长 期 存在 的 问题 。 在 Packt 公 司 ， 我 们 对 自己 的 版 权 和 许可 证 的 保 
护 非 常 严 格 。 如 果 你 在 互联 网 上 遇 到 以 任何 形式 非法 复制 我 们 作品 的 行为 ， 请 立刻 向 我 们 提供 具体 地 址 或 
网 站 名 称 ， 以 帮助 我 们 采取 补救 措施 。 请 通过 copyright@packtpub.com 联系 我 们 ， 并 且 附 上 可 疑 盗版 资料 
的 链接 。 感 谢 你 帮助 我 们 保护 作者 ， 使 我 们 能 够 带 给 你 更 有 价值 的 内 容 。 
其 他 问题 
如 果 你 对 本 书 的 任何 方面 还 存 有 疑问 ， 可 以 通过 questions@packtpub.com 邮箱 联系 我 们 ， 我 们 将 尽力 解 
IR o 

电子 书 
扫描 如 下 二 维 码 ， 即 可 购买 本 书 电 子 版 。 


第 1 章 


计算 机 系统 的 用 户 总 是 希望 自己 的 系统 具有 更 好 的 性 能 。 他 们 想 要 获得 质量 更 高 的 视频 、 更 好 的 视频 游戏 
和 更 快 的 网 络 速度 。 几 年 前 ， RENERIEN H 戸 提供 更 好 ed 处 理 器 的 速度 并 
没有 加 快 。 取 而 代 之 的 是 ， 处 里 器 增加 了 更 多 核心 ， 这 样 操作 系统 就 可 以 同时 执行 多 个 任务 。 这 就 是 所 请 
的 并 发 处 理 。 并 发 编程 涵盖 了 在 一 台 计 算 机 上 同时 运行 多 个 任务 或 进程 所 需 的 ar 以 及 任 
务 或 进程 之 间 为 消除 数据 丢失 或 不 一 致 而 进行 的 通信 和 同步 。 本 章 将 探讨 如 下 主题 。 

。 基 本 的 并 发 概念 

。 并 发 应 用 程序 中 可 能 出 现 的 问题 。 

。 设计 并 发 算法 的 方法 论 。 

。 Java 并 发 API。 

。 并 发 设计 模式 。 

。 设 计 并 发 算法 的 提示 和 技巧 。 
1.1 基本 的 并 发 概念 

先 介绍 一 下 并 发 的 基本 概念 。 要 理解 本 书 其 余 的 内 容 ， 必 须 先 理解 这 些 概念 


111 并 发 与 并 行 


发 和 并 行 是 非常 相似 的 概念 ， 不 同 的 作者 会 给 这 两 个 概念 下 不 同 的 定义 。 关 于 并 发 ， 最 被 人 们 认可 的 定 
义 是 ， 在 单个 处 理 器 上 采用 单 核 执行 多 个 任务 即 为 并 发 。 在 这 种 情况 下 ， 操 作 系统 的 任务 调度 程序 会 很 快 
从 一 个 任务 切换 到 另 一 个 任务 ， dec a mr 同 
一 时 间 在 不 同 的 计算 机 、 处 理 器 或 处 理 器 核心 上 同时 运行 多 个 任务 ， 就 是 所 谓 的 “并 行 ”。 

另 一 个 关于 并 发 的 定义 是 ， 在 系统 上 同时 运行 多 个 任务 (不 同 的 任务 ) 就 是 并 发 。 而 另 一 个 关于 并 行 的 定 
义 是 同时 在 某 个 数据 集 的 不 同 部 分 之 上 运行 同一 任务 的 不 同 实例 就 是 并 行 。 

关于 并 行 的 最 后 一 个 定义 是 ， 系 统 中 同时 运 和 个 任务 。 关 于 并 发 的 最 后 一 个 定义 是 ， 解释 程序 员 
SHE ARTE TL PA RAAE - 

正如 你 看 到 的 ， 这 两 个 概念 非常 相似 ， 而 且 这 种 相似 性 随 着 多 核 处 理 器 的 发 展 也 在 不 断 增 强 。 


1.1.2 同步 
在 并 发 中 ， 


。 控制 同 步 ， 
开始 。 


成 之 前 
。 数据 访问 
Ho 


与 同 ; 
时 间 内 ， 


步 密切 相关 的 


例如 ， 当 一 个 任务 的 


My 


同步 : 


我 们 可 以 将 同步 定义 为 一 种 协调 两 个 或 更 多 作 
始 依赖 于 另 一 个 他 


两 个 或 更 多 任务 访问 共享 


个 概念 是 临界 段 。 临界 段 是 一 段 代码 ， 


E DR ts AS 
ES NAF 
变量 时 > 在 王 意 时 间 => 


吉 采 的 机 制 。 同 步 方式 有 


时 ， 第 二 个 任务 不 能 在 第 一 个 任务 完 


口 


ys ee 已 可 上 


访问 共享 资 


AN 


个 任务 可 以 访问 该 变 


X 


此 在 任何 给 定 


只 能 够 被 一 个 任务 执行 。 互 不 是 


发 任务 和 
计算 任务 


I RFE TEM 


用 来 保证 这 一 


E A (本 
， 这 些 任务 可 以 独 


的 机 制 , 


FH 


。 {#53 (semaphore 


KEANE 


法 有 着 细 粒 度 ( 高 互通 信 的 小 型 


司 的 同步 机 制 。 


E 流行 
E, HN] 


的 机 制 如 下 。 


制 对 个 或 多 个 i 


"ER 


资源 数量 的 变量 ， 


ss 


单位 资源 


里 该 变 


。 监视 器 : 
牛 和 


机 制 的 保 3 


的 简写 形式 ) 是 去 特殊 类 
HEM 的 


通报 条 件 ) 


你 将 要 学 习 
m, ARE ( 


FAK 


个 进程 才 LLE 


一 种 ETL RIZ 工 实 ] 
旦 你 通报 了 该 


E TRAS 制 。 J 
条 件 ， 在 等 竺 它 的 任 


个 值 (FRE 和 资源 忙 ) ， 而 且 
帮助 你 避免 


段 来 


的 与 同步 相关 的 最 后 


vie 法 、 对 象 ) 


较 和 交 ] 


A) 原 语 是 不 可 


变 的 ， 


113 不可 変 対象 


不可 変 対象 是 一 种 非常 特殊 的 对 象 。 在 其 
个 不 可 变 对 象 


不 可 变 


ZEN 


这 样 就 可 以 在 # 


那么 你 就 


恋 对 


不可 変 対象 的 


个 例子 就 


是 Java 


String 对 象 。 


1.1.4 原子 操作 和 原子 变量 


必须 创建 一 个 新 的 对 
对 象 的 主要 优点 在 了 


的 String 类 。 


个 概念 是 线程 安全 。 
就 是 线程 安全 的 。 


T 且 可 以 采 


、 一 个 条 件 


司 的 方式 来 实现 。 
E tos 
行 算法 中 的 互通 
HAHA 


1H 
, 同 


7 NÚ 


就 会 较 
571 


于 存放 可 
(mutex, mutual exclusion 


只 有 将 互 


操作 (等 待 条 


MESE E o 


1 有 
JN 


个 


会 继续 执行 。 


如 
据 的 非 阻 


塞 的 CAS 


训 数 据 的 所 有 用 户 都 受到 同步 


(compare-and-swap， 比 


发 应 用 程 ) 


初始 化 后 ， 
象 。 


它 是 线程 安全 的 。 你 可 以 在 并 发 应 


使 用 该 代码 而 


不 会 出 任何 问题 。 


改 其 可 视 状 态 (He! 


FÊ) 


是 
HE 


。 如 果 想 修改 一 


程序 中 使 


当 你 给 一 个 String 对 象 赋 新 值 时 ， 会 创 


1 不 会 出 现任 何 问题 。 
建 一 个 新 的 


JET 


与 应 用 程序 的 其 他 任务 相 比 ， 原 子 操作 是 一 种 发 生 在 瞬间 的 操作 。 在 并 发 应 用 程序 中 ， 可 以 通过 一 个 临 
界 段 来 实现 原子 操作 ， 以 便 对 整个 操作 采用 同步 机 制 。 
原子 变量 是 一 种 通过 原子 操作 来 设置 和 获取 其 值 的 变量 。 可 以 使 用 某 种 同步 机 制 来 实现 一 个 原子 变量 ， 
或 者 也 可 以 使 用 CAS 以 无 锁 方式 来 实现 一 个 原子 变量 ， 而 这 种 方式 并 不 需要 任何 同步 机 制 。 
115 ”共享 内 存 与 消息 传递 
任务 可 以 通过 两 种 不 同 的 方法 来 相互 通信 。 第 一 种 方法 是 共享 内 存 ， 通 常用 于 在 同一 台 计算 机 上 运行 多 
任务 的 情况 。 任 务 在 读 取 和 写 入 值 的 时 候 使 用 相同 的 内 存 区 域 。 为 J ERAS 对 该 共享 内 存 的 访问 
必须 在 一 个 由 同步 机 制 保护 的 临界 段 内 完成 。 
另 一 种 同步 机 制 是 消息 传递 ， 通 常用 于 在 不 同 计算 机 上 运行 多 任务 的 情形 。 当 一 个 任务 需要 与 另 一 个 任 
务 通信 时 ， EEE TUNE «A 发 送 方 保 持 阻 塞 并 等 待 响应 ， 那 么 该 通信 就 是 同步 
的 ; 如 果 发 送 方 在 发 送 消息 后 继续 执行 自己 的 流程 ， 那 么 该 通信 就 是 异步 的 。 
1.2 并 发 应 用 程序 中 可 能 出 现 的 问题 
编写 并 发 应 用 程序 并 不 是 一 件 容易 的 工作 。 如 果 不 能 正确 使 用 同步 机 制 ， 应 用 程序 中 的 任务 就 会 出 现 各 种 
问题 。 本 市 将 介绍 一 些 此 类 问题 。 
121 ”数据 竞争 
如 果 有 两 个 或 者 多 个 任务 在 临界 段 之 外 对 一 个 共享 变量 进行 写 入 操作 ， 也 就 是 说 没有 使 用 任何 同步 机 制 ， 
那么 应 用 程序 可 能 存在 数据 竞争 〈 也 叫 作 竞争 条 件 ) 。 
在 这 些 情况 下 ， 应 用 程序 的 最 终结 果 可 能 取决 于 任务 的 执行 顺序 。 请 看 下 面 的 例子 。 
package com.packt.java.concurrency; 
public class Account { 

private float balance; 

public void modify (float difference) £ 

float value=this.balance; 
this.balance=value+difference; 

} 
} 
假设 有 两 个 不 同 的 任务 执行 了 同一 个 Account 対象 中 的 modify( ) 方法 。 由 于 任务 中 语句 的 执行 顺序 不 
同 ， 最 终结 果 也 会 有 所 不 同 。 假 设 初始 余额 为 1000， 而 且 两 个 任务 都 调用 了 modify( ) 方法 并 采用 1000 作 
为 参数 。 最 终 的 结果 应 该 是 3000， 但 是 如 果 两 个 任务 都 在 同一 时 间 执 行 了 第 一 条 语句 ， 然 后 又 在 同一 时 间 
执行 了 第 二 条 语句 ， 那 么 最 终 的 结果 将 是 2000。 正 如 你 看 到 的 ，modify( ) 方法 不 是 原子 的 ， 而 
Account 类 也 不 是 线程 安全 的 。 
1.2.2 FEB 
当 两 个 (或 多 个 ) 任务 正在 等 待 必须 由 另 一 线程 释放 的 某 个 共享 资源 ， mE 等 待 必 须 由 前 述 任 
务 之 释放 的 另 共享 资源 时 ， 并 发 应 用 程序 就 出 现 了 死 锁 。 当 系 统 中 同时 出 现 如 条 件 时 ， 就 会 
导致 这 种 情形 。 我 们 将 其 称 为 Cofftman 条 件 。 

e EFR: 死 锁 中 涉及 的 资源 必须 是 不 可 共享 的 。 一 次 只 有 一 个 任务 可 以 使 用 该 资源 。 


LE 

E 
E 
3 
- 
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。 占有 并 等 竺 条件 : 一 个 任务 在 占有 互 斥 的 资源 时 又 请 求 另 一 互 斥 的 资源 。 当 它 在 等 待 
释放 任何 资源 。 

。 不 可 剥夺 : 资源 只 能 被 那些 持 有 它们 的 任务 释放 。 

。 循环 等 待 : 任务 1 正 等 待 任 务 2 所 占有 的 资源 ， 而 任务 2 又 正在 等 待 任务 3 所 占有 的 资源 ， 以 此 类 推 ， 
最 终 任务 n 又 在 等 待 由 任务 1 所 占有 的 资源 ， 这 样 就 出 现 了 循环 等 待 。 


有 一 些 机 制 可 以 用 来 避免 死 锁 。 


。 AREI: 这 是 最 常用 的 机 制 。 你 可 以 假设 自己 的 系统 绝 不 会 出 现 死 锁 ， 而 如 果 发 生死 锁 ， 结 果 就 

是 你 可 以 停止 应 用 程序 并 且 重新 执行 它 。 

。 检测 ;系统 中 有 一 项 专门 分 析 系 统 状态 的 任务 ， 可 以 检测 是 否 发 生 了 死 锁 。 如 果 它 检测 到 了 死 锁 ， 

可 以 采取 些 措施 来 修复 该 问题 题 ， 例 如 ， 结 束 某 个 任务 或 者 强制 释放 某 一 资源 。 

。 预 防 ， 如 果 你 想 防止 系统 出 现 死 锁 ， 就 必须 预防 Coffman 条 件 中 的 一 条 或 多 条 出 现 。 

。 规避 : 如 果 你 可 上 于 务 执行 之 前 得 到 该 任务 所 使 用 资源 的 相关 信息 ， 那 么 死 锁 是 可 以 规避 
的 。 当 一 个 任务 要 开始 执行 时 ， 你 可 以 对 系统 中 空闲 的 资源 和 任务 所 需 的 资源 进行 分 析 ， 这 样 就 可 以 
判断 任务 是 否 能 够 开始 执行 。 


1.2.3 


如 果 系 统 中 有 两 个 任务 ， 它 们 总 是 因 对 方 的 行为 而 改变 自己 的 状态 ， 那 么 就 出 现 了 活 锁 。 最 终结 果 是 它 
们 陷入 了 状态 变更 的 循环 而 无 法 继续 向 下 执行 。 


例如 ， 有 两 个 任务 : 任务 1 和 任务 2， 它 们 都 需要 用 到 两 个 资源 : 资源 1 和 资源 2。 假 设 任务 1 对 资源 1 加 了 一 
个 锁 ， 而 任务 2 对 资源 2 加 了 一 个 锁 。 当 它们 无 法 访问 所 需 的 资 源 时 ， 就 会 释放 自己 的 资源 并 且 重 新 开始 循 
环 。 这 种 情况 可 以 无 限 地 持续 下 去 ， 所 以 这 两 个 任务 都 不 会 结束 自己 的 执行 过 程 。 

1.2.4 資源 不足 

当 某 个 任务 在 系统 中 无 法 获取 维持 其 继续 执行 所 需 的 资源 时 ， 就 [会 出 现 资源 不足“ RS ETE 
二 一 资源 且 该 资源 被 释放 时 ， 系 统 需要 选择 下 一 个 可 以 使 用 该 资源 的 任务 。 如 果 你 的 系统 中 没有 设计 良好 
的 算法 ， 那 么 系统 中 有 些 线程 很 可 能 要 为 获取 该 资源 而 等 竺 很 长 时 间 。 
平原 则 。 所 有 等 待 资源 的 任务 必须 在 某 一 给 定时 间 之 内 Ri 该 资源 。 可 


选 方案 之 一 就 是 实现 一 个 算法 ， 在 选择 下 一 个 将 占有 某 资源 的 任务 时 ， 对 任务 已 等 得 该 资源 的 时 间 因 素 
加 以 考虑 。 然 而 ， SEE 平 需要 增加 额外 的 开销 ， 这 可 能 会 降低 程序 的 吞吐 量 。 


1.2.5 ”优先 权 反 转 


当 一 个 低 优先 权 的 任务 持 有 了 一 个 高 优先 级 任务 所 需 的 资源 时 ， 就 会 发 生 优先 权 反 转 。 这 样 的 话 ， 低 优 
先 权 的 任务 就 会 在 高 优先 权 的 任务 之 前 执行 。 


13 设计 并 发 算法 的 方法 论 


E 


本 节 ， 我 们 将 提出 一 个 五 步骤 的 方法 论 来 获得 某 一 串 行 算法 的 并 发 版 本 。 该 方法 论 基于 Intel 公 司 在 
{“Threading Methodology: Principles and Practices” 文 档 中 给 出 的 方法 论 * 


131 起点 : 算法 的 一 个 串 行 版 本 


我 们 实现 并 发 算法 的 起 点 是 该 算法 的 一 个 串 行 版 本 。 当 然 ， 也 可 以 从 头 开 始 设计 一 个 并 发 算法 。 不 过 我 认 
为 ， 算 法 的 串 行 版 本 有 两 个 方面 的 好 处 。 


我 们 可 以 使 用 捉 行 算法 来 测试 并 发 算法 是 否 生成 了 正确 的 结果 。 当 接收 同样 的 输入 时 ， 这 两 个 版 本 的 
法 必须 生成 同样 的 输出 结果 ， 这 样 我 们 就 可 以 检测 并 发 版 本 中 的 一 些 问题 ， 例 如 数据 竞争 或 者 类 似 


a 
量 这 两 个 算法 的 吞吐 量 ， 以 此 来 观察 使 用 并 发 处 理 是 否 能 够 改善 响应 时 间或 者 提升 算法 一 


我 
的 条 件 。 
。 我们 可 以 
次 性 所 能 处 理 的 数据 量 。 


Sa 


132 第 1 歩 : 分 析 
在 这 一 步 中 ， 我 们 将 分 析 算 法 的 串 行 版 本 来 寻找 它 的 代码 中 有 哪些 部 分 可 以 以 并 行 方 式 执行 。 我 们 应 该 特 
BA DAME RR HO EEE 寻 为 实现 这 些 部 分 的 并 发 版 本 将 能 获得 较 大 
4 性 能 改进 
对 这 一 过 程 而 言 ， 比 较 好 的 候选 方案 就 是 循环 排查 ， 让 其 中 的 一 个 步骤 独立 于 其 他 步骤 ， 或 者 让 其 中 某 些 
部 分 的 代码 独立 了 二 他 部 分 的 代码 (例如 一 个 用 于 初始 化 某 个 应 用 程序 的 算法 ， 它 打开 与 数据 库 的 连接 ， 
加 载 配置 文件 ， 初 始 化 一 些 对 象 。 所 有 这 些 前 期 任务 都 是 相互 独立 的 ) 。 

1.3.3 第 2 歩 : 设计 

一 旦 你 知道 了 要 对 哪些 部 分 的 代码 并 行 处 理 ， 就 要 决定 如 何 对 其 进行 并 行 化 处 理 了 。 
代码 的 变化 将 影响 应 用 程序 的 两 个 主要 部 分 。 

。 代码 的 结构 。 

。 数 据 结构 的 组 织 。 

你 可 以 采用 两 种 方式 来 完成 这 一 任务 。 

。 任务 分 解 ， 当 你 将 代码 划分 成 两 个 或 多 个 可 以 立刻 执行 的 独立 任务 时 ， 就 是 在 进行 任务 分 解 。 其 中 
SA 给 定 的 顺序 来 执行 ， 或 者 必须 在 同一 点 上 等 待 。 你 必须 使 用 同步 机 制 来 实 
现 这 样 的 行 

。 数据 分 解 : 当 使 用 同一 任务 的 多 个 实例 分 别 对 数据 集 的 个 子 集 进 行 处 理 时 ， 就 是 在 进行 数据 分 
解 。 该 数据 集 是 一 个 共享 资源 ， 因 此 ， 如 果 这 些 任务 需要 修改 数据 ， 那 你 必须 实现 一 个 临界 段 来 保护 
对 数据 的 访问 。 

胃 一 个 必须 牢记 的 要 点 是 解决 万 案 的 粒度 现 一 个 算法 的 并 发 版 本 ， 其 目标 在 于 实现 性 能 的 改善 ， 因 此 
你 应 该 使 用 所 有 可 用 的 处 理 器 或 核 。 另 一 方面 ， 当 你 采用 某 种 同步 机 制 时 ， 就 引入 了 一 些 额 外 的 必须 执行 
的 指令 。 如 果 你 将 算法 分 割 成 很 多 小 任务 〈 细 粒度 ) ， 实 现 同步 机 制 所 需 额外 引入 的 代码 就 会 导致 性 能 下 
降 * 如 采 你 将 算法 分 割 成 比 核 数 还 少 的 任务 粗 粒 度 ) ， 那 么 就 没有 充分 利用 全 部 资源 。 同 样 ， 你 还 要 考 
虐 每 个 线程 都 必须 要 做 的 工作 ， 尤 当 你 实现 细 粒 度 解决 方案 时 。 如 果 某 个 任务 的 执行 时 间 比 其 他 任务 
kK, 那么 该 任务 将 决定 整个 应 用 程序 的 执行 时 间 。 你 需要 在 这 两 点 之 间 找 到 平衡 。 
1.3.4 第 3 歩 : 实现 
步 就 是 使 种 编程 语言 来 实现 并 发 法 了 ， 而 且 如 果 必 要 ， 还 要 用 到 线程 库 。 在 本 书 的 例子 中 ， 我 
们 将 使 Java 语 ES 現 所 3 TE 
135 第 4 歩 : 测试 
在 完成 实现 过 程 之 后 ， 你 应 该 对 该 并 行 算法 进行 测试 。 如 果 你 有 了 算法 的 串 行 版 本 ， 可 以 对 比 这 两 个 版 本 
法 的 结果 ， 从 而 验证 并 行 版 本 是 否 正 确 。 
测试 和 调试 一 个 并 行程 序 的 具体 实现 是 非常 困难 的 任务 ， 因 为 应 用 程序 中 不 同 任务 的 执行 顺序 是 无 法 保证 
的 。 在 第 12 章 中 ， 你 将 学 到 一 些 提 示 、 技 巧 和 工具 ， 从 而 可 以 高 效 地 完成 这 些 任务 。 
1.3.6 第 5 歩 : 调整 
最 后 一 步 是 对 比 并 行 算法 和 串 行 算法 的 吞吐 量 。 如 果 结 果 并 未 达到 预期 ， 那 么 你 必须 重新 审查 该 算法 ， 查 
找 造 成 并 行 算法 性 能 较 差 的 原因 。 
你 也 可 以 测试 该 算法 的 不 同 参数 (例如 任务 的 粒度 或 数量 ) ， 从 而 找到 最 佳 配置 。 
还 有 其 他 一 些 指标 可 用 来 评估 通过 使 算法 并 行 处 理 可 能 获得 的 性 能 改进 。 下 面 给 出 的 是 最 常见 的 三 个 指 


。 加 速 比 (speedup) : 这 是 一 个 用 于 评价 并 行 版 算法 和 串 行 版 算法 之 间 相 对 性 能 改进 情况 的 指标 。 


了 sequential 
Speedup = —* 


Teoncurrent 


EH, T sequential 是 算法 串 行 版 的 执行 时 间 ， 而 T concurrent 是 算 法 并 行 版 的 执行 时 间 。 
Amdahl 定 律 : 该 定律 用 于 计算 对 算法 并 行 化 处 理 之 后 可 获得 的 最 大 期 望 改进 。 


Speedup = P 
1-P)+— 
(1- P) N 


中 ,，P 是 可 以 进行 并 行 化 处 理 的 代码 的 百分比 ， 而 N 是 你 准备 用 于 执行 该 算法 的 计算 机 的 核 数 。 
例如 ， 如 有 果 你 可 以 对 75% 的 代码 进行 并 行 化 处 理 并 且 有 四 个 核 ， 那 么 最 大 加 速 比 可 按照 如 下 公式 进行 


ad 


Speedup = — EBENE < Es < 2.29 


1-023+ (275) 0.44 


Gustafson-Barsis 定 律 1. Amdahl 定 律 具有 一 定 缺陷 。 它 假设 当 你 增加 核 的 数量 时 输入 数据 集 是 相同 
的 ， 但 是 一 般 来 说 ， 多 的 核 时 ， 你 就 想 处 理 更 多 的 数据 。Gustafson 定 律 认 为 ， 当 你 有 更 多 可 
的 核 时 ， 可 同时 解决 的 问题 规模 就 越 大 ， 其 公 \ 式 如 下 


Speedup = P — a x (P — 1) 
中 ，NN 为 核 数 ， 而 P 为 可 并 行 处 理 代 码 所 占 的 百分比 。 
如 果 我 们 使 用 之 前 的 同一 示例 ， 那 么 Gustafson 定 律 计算 出 的 可 伸缩 加 速 比如 下 。 


Speedup = 4 — 0.25 x (3) = 3.25 
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| 1 也 称 作 Gustafson 定 律 。 一 一 译 者 注 


1.3.7 结论 

在 本 节 中 ， 你 知晓 了 在 对 某 一 串 行 算法 进行 并 行 化 处 理 时 必须 考虑 的 问题 。 
先 ， 并 非 每 一 个 算法 都 可 以 进行 并 行 化 处 理 。 例 如 ， 如 果 你 要 执行 一 个 循 {每 次 迭代 的 结果 取决 于 
前 一 次 迭代 的 结果 ， 那 么 你 就 不 能 对 该 循环 进行 并 行 化 处 理 。 基 于 同样 的 原因 ， 弟 归 算 法 是 无 法 进行 并 行 
化 处 理 的 另 一 个 例子 。 
你 要 牢记 的 另 一 重要 事项 是 : 对 性 能 良好 的 串 行 版 算法 实现 并 行 处 理 ， 实 际 上 是 个 精 糕 的 出 发 点 。 如 果 在 
你 开始 对 某 个 算法 进行 并 行 化 处 理 时 ， 发 现 并 不 容易 找到 代码 的 独立 部 分 ， 那 么 你 就 要 找 一 找 该 算法 的 其 
他 版 本 ， 并 且 验 证 一 下 该 版 本 的 算法 是 否 能 够 很 方便 地 进行 并 行 化 处 理 。 


最 后 ， 当 你 实现 一 个 并 发 应 用 程序 时 〈 从 头 开始 或 者 基于 一 个 串 行 算法 ) ， 必 须要 考虑 下 面 几 点 。 
并 
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。 效率 : - 行 版 算法 花费 的 时 间 必 须 比 串 行 版 代 法 少 。 对 算法 进行 并 行 处 理 的 首要 目标 就 是 实现 运行 
时 间 比 串 行 版 算法 少 ， 或 者 说 它 能 够 在 相同 时 间 内 处 理 更 多 的 数据 。 
。 简单 : 当 你 实现 SE (无 论 是 否 为 并 行 算 法 ) 时 ， 必 须 尽 可 能 确保 其 简单 。 
现 、 测 试 、 调 斌 和 维护 ， 这 样 就 会 少 出 错 。 


应 该 更 加 容易 实 
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. 可 移植 性 : 你 的 并 行 算法 应 该 只 需要 很 少 的 更 改 束 能 够 在 不 同 的 平台 上 执行 。 因 为 在 本 书 中 使 用 Java 
语言 ， 所 以 做 到 这 一 点 非常 简单 。 有 了 Java， 你 就 可 以 在 每 一 种 操作 系统 中 执行 程序 而 无 须 任何 更 改 
(除非 因为 程序 实现 而 必须 更 改 ) 。 
。 伸缩 性 ， 如 果 你 增加 了 核 的 数目 ， 算 法 会 发 生 什 么 情况 ?正如 前 面 提 到 的 ， 你 应 该 使 用 所 有 可 用 的 
核 ， 这 样 一 来 你 的 算法 就 能 利用 所 有 可 用 的 资源 。 
1.4 Java API 
Java 编 程 语言 含有 非常 丰富 的 并 发 API o 管理 基本 并 发 元 素 所 需 的 类 ， 例 如 Thread > Lock 和 
Semaphore 等 类 ， 以 及 用 于 3 TILER ME, 例如 执行 器 框架 或 新 增加 的 并 行 Stream 
API ° 
A RE RAPIER o 
1.4.1 基本 并 发 类 
发 API 的 基本 类 如 下 。 
。Thread 类 : 该 类 描述 了 执行 并 发 Java 应 用 程序 的 所 有 线程 。 
。 Runnable 接口 : 这 是 Java 中 创建 并 发 应 用 程序 的 另 一 种 方式 。 
。ThreadLocal 类 : 该 类 用 于 存放 从 属于 某 一 线程 的 变量 。 
。ThreadFactory 接口 : 这 是 实现 Factory 设计 模式 的 基 类 ， 你 可 以 用 它 来 创建 定制 线程 。 
1.4.2 同步 机 制 
Java 并 发 API 包 括 多 种 同步 机 制 ， 可 以 支持 你 : 
。 定义 用 于 访问 某 一 共享 资源 的 临界 段 ; 
。 在 某 一 共同 点 上 同步 不 同 的 任务 。 
下 面 是 最 重要 的 同步 机 制 。 
・ synchronized 关键 字 : synchronized 关键 字 允 许 你 在 某 个 代码 块 或 者 某 个 完整 的 方法 中 定义 
一 个 临界 段 。 
。Lock 接口 ，Lock 提供 了 比 synchronized 关键 字 更 为 灵活 的 同步 操作 。Lock 接口 有 多 种 不 同类 
型 : ReentrantLock 用 于 实现 一 个 可 与 某 种 条 件 相 关联 的 锁 : ReentrantReadWriteLock ix 
写 操 作 分 高井 来 , StampedLock 是 Java 8º 增加 的 一 种 新 特性 ， 它 包括 三 种 控制 读 / 写 访问 的 模式 o 
. Semaphore 类 : 该 类 通过 实现 经 典 的 信号 量 机 制 来 实现 同步 。Java 支 持 二 进 制 信号 量 和 一 般 信和 号 
量 。 
e CountDownLatch&: 该 类 允许 一 个 任务 等 待 多 项 操作 的 结束 。 
e CyclicBarrier 类 : 该 类 允许 多 线程 在 某 一 共同 点 上 进行 同步 。 
。Phaser 类 : 该 类 允许 你 控制 那些 分 割 成 多 个 阶段 的 任务 的 执行 。 在 所 有 任务 都 完成 当前 阶段 之 前 ， 
任何 任务 都 不 能 进入 下 一 阶段 。 
1.4.3 ”执行 器 
执行 器 框架 是 在 实现 并 发 任务 时 将 线程 的 创建 和 管理 分 割 开 来 的 一 种 机 制 。 你 不 必 担 心 线程 的 创建 和 管 
理 ， 只 需要 关心 任务 的 创建 并 且 将 其 发 送 给 执行 器 。 该 框架 中 涉及 的 主要 类 如 下 。 
・ Executor 接口 和 ExecutorService 接口 : 它们 包含 了 所 有 执行 器 共有 的 execute( ) 方法 。 
・ ThreadPoolExecutor 类 : 该 类 允许 你 获取 一 个 含有 线程 池 的 执行 器 ， 而 且 可 以 定义 并 行 任务 的 
最 大 数目 。 
・ ScheduledThreadPoolExecutor 类 : 这 是 一 种 特殊 的 执行 器 ， 可 以 使 你 在 某 段 延迟 之 后 执行 任 
务 或 者 周期 性 执行 任务 。 
e Executors : 该 类 使 执行 器 的 创建 更 为 容易 。 


e Callable 接口 : 这 是 Ru 


o 
im 
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> 


nnable #O NEO 可 返 


Future 接口 ， 该 接口 包含 了 一 些 能 获取 Callable 接口 返 


1.4.4 ”Fork/Join 框 架 


Fork/Join 框 架 定义 了 特殊 的 执行 器 ， 尤 其 针对 采用 分 治 方法 进行 求解 的 问题 。 针 对 解决 这 类 问题 的 
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制 其 状态 的 方法 。 


务 ， 它 还 提供 了 一 种 优化 
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e ForkJoinWorkerThread : 这 是 一 个 准备 在 ForkJoinPool 类 中 执行 任务 的 线程 


也 是 将 新 任务 加 入 队列 中 并 且 按 照 队列 排序 执行 任务 的 需要 。 该 框架 涉及 的 主 


执行 的 机 制 。Fork/Join 是 为 细 粒 度 并 行 处 理 量 身 定制 的 ， 


妹 为 它 的 开销 非 


ForkJoinPool: 该 类 分 


现 了 要 用 于 运行 任务 的 执行 器 。 


ForkJoinTask : 这 是 一 


1.45 ”并 行 流 
流 和 lambda 表 达 式 可 能 是 Java 


数据 源 的 方法 ， 它 允许 处 理 某 
实现 算法 。 


个 可 以 在 ForkJoinPool 类 中 执行 的 任务 。 


要 类 和 接口 如 下 。 


o 
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8 中 最 重要 的 两 个 新 特性 。 流 已 经 被 增加 为 Collection 接口 和 其 他 一 些 


MapReduce 方 法 来 


流 是 一 种 特殊 的 流 ， 它 以 一 种 并 行 方 式 实现 其 操作 。 使 用 并 行 流 时 涉及 的 最 重要 的 元 素 如 下 。 


fã 


stream 接口 ， 该 接口 定义 了 所 有 可 以 在 一 个 流 上 实施 的 操作 。 
Optional: 这 是 一 个 容器 对 象 ， 可 能 (也 可 能 不 ) 包含 一 个 非 空 值 。 
Collectors: 该 类 实现 了 约 简 (reduction) 操作 ， MARTE n] 作为 流 操作 序列 的 一 部 分 使 用 


lambda 表 达 式 : 流 被 认为 


为 参数 ， 这 让 你 可 以 实现 


1.4.6 ”并 发 数据 结构 


Java 


API 中 的 常见 数据 结构 ( 例 


为 紧 恋 的 操作 。 


是 可 以 处 理 lambda 表 达 式 的 。 多 数 流 方法 都 会 接收 一 个 lambda 表 达 大 式 作 


如 ArrayList 、Hashtable 等 ) 并 不 能 在 并 发 应 用 程 


:你 采用 了 某 种 同步 机 制 ， 应 用 程序 就 会 增加 大 量 的 额 儿 


种 外 部 同步 机 制 。 但 是 如 ; 


你 不 采用 同步 机 制 ， 那 么 应 用 程序 中 很 可 能 出 现 竞争 条 件 。 如 果 你 在 多 个 线程 中 修改 数据 ， 那 么 就 会 


争 条 件 ， 你 可 能 会 面 对 各 种 异常 〈 例 如 ConcurrentModificationException 和 


F 使 d, 除 E 
计算 时 间 。 而 如 
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ArrayIndexoutOfBoundsException ) ， 出 现 隐 性 数据 丢失 ， 或 者 应 用 程序 会 陷入 死 循 环 。 


Java 并 发 API 中 含有 大 量 可 以 在 


y 


并 发 应 用 中 使 


而 没有 风险 的 数据 结构 。 我 们 将 它们 分 为 以 下 两 大 类 别 。 


阻塞 型 数据 结构 : 这 些 数据 结构 含有 一 些 能 够 阻塞 调用 任务 的 方法 ， 例 如 ， 当 数据 结构 为 空 而 你 又 


要 从 中 获取 值 时 。 


非 阻 塞 型 数据 结构 : 如 果 操 作 可 以 立即 进行 ， 它 并 不 会 阻塞 调用 任务 。 和 否则 ， 它 将 返回 null 值 或 者 抛 


Lu aay 
出 异常 。 
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1.5 


是 其 中 的 一 些 数据 结构 。 


ConcurrentLinkedDed 
ConcurrentLinkedQue 


LinkedBlockingDeque : 
LinkedBlockingQueue : 


PriorityBlockingQue 
ConcurrentSkipListM 
ConcurrentHashMap : 


ue: 这 是 一 个 非 阻塞 型 的 列表 
ue : 这 是 一 个 非 阻 塞 型 的 队列 
这 是 一 个 阻塞 型 的 列表 。 
这 是 一 个 阻塞 型 的 队列 。 


o 
o 


ue: 这 是 一 个 基于 优先 级 对 元 素 进 行 排序 的 阻塞 型 队列 。 


ap: 这 是 一 个 非 阻 塞 型 的 NavigableMap ° 
这 是 一 个 非 阻塞 型 的 哈 希 表 。 


AtomicBoolean 、AtomicInteger 、AtomicLong flAtomicReference : 


据 类 型 的 原子 实现 。 
并 发 设计 模式 


这 些 是 基本 Java 数 


在 软件 工程 中 ， 设 计 模 式 是 针对 类 AREA TE ° 这 种 解决 方案 被 多 次 使 用 ， 而 且 已 经 被 证 
明 是 针 x a ， 每 当 你 需要 解决 这 中 的 某 个 问题 ， 就 可 以 使 用 它们 来 避免 做 重复 工 
作 。 其 中 ， 单 例 模 式 (Singleton) 和 工厂 模式 (Factory) 是 几乎 每 个 应 用 程序 中 都 要 用 到 的 通用 设计 模 
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发 处 理 也 有 其 自己 的 设计 模式 。 本 节 ， 我 们 将 介绍 一 些 最 常用 的 并 发 设计 模式 ， 以 及 它们 的 Java 语 言 实 
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1.5.1 信和 号 模式 


这 设计 机 式 介绍 了 如 何 实现 某 一 任务 向 另 一 任务 通告 某 一 事件 的 情形 。 实 现 这 种 设计 模式 最 简单 的 方式 
是 采用 信和 号 量 或 者 互 斥 ， 使 用 Java 语 言 中 的 ReentrantLock 类 或 Semaphore 类 即 可 ， 甚 至 可 以 采用 
Object 类 中 的 wait( ) 方 法 和 notify( ) 方法 。 


请 看 下 面 的 例子 。 


public void task1() { 
section1(); 
common0bject.notify(); 


public void task2() { 
common0bject .wait(); 
section2(); 


在 上 述 情况 下 ，section2( ) 方法 总 是 在 section1( ) 方法 之 后 执行 。 

15.2 会 合 模式 

这 种 设计 模式 是 信号 模式 的 推广 。 在 这 种 情况 下 ， 第 一 个 任务 将 等 待 第 二 个 任务 的 某 一 事件 ， 而 第 二 个 
F 务 又 在 等 待 第 一 个 任务 的 某 一 事件 。 其 解决 方案 和 信和 号 模式 非常 相似 ， 只 不 过 在 这 种 情况 下 ， 你 必须 使 
两 个 对 象 而 不 是 一 个 。 


请 看 下 面 的 例子 。 


ER 


public void task1() { 
section1_1(); 
common0bject1.notify(); 
commonObject2.wait(); 
section1_2(); 


} 

public void task2() { 
section2_1(); 
commonObject2.notify(); 
commonObject1.wait(); 
section2_2(); 


在 上 述 情 况 下 ，section2_2( ) 方法 总 是 会 在 section1_1( ) 方法 之 后 执行 ， 而 section1_2( ) 方法 
总 是 会 在 section2 10 方法 之 后 执行 。 仔 细 想 想 就 会 发 现 ， 如 果 你 将 对 wait ) 方法 的 调用 放 在 对 
notify() 方法 的 调用 之 前 ， 那 么 就 会 出 现 死 锁 。 
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互 斥 这 种 机 制 可 以 用 来 实现 临界 段 ， 确 保 操作 相互 排斥 。 这 就 是 说 ， 一 次 只 有 一 个 任务 可 以 执行 由 互 斥 机 
制 保护 的 代码 片段 。 在 Java 中 ， 你 可 以 使 用 synchronized 关键 字 (这 人 允许 你 保护 一 段 代码 或 者 一 个 完 
整 的 方 法 ) 、ReentrantLock 类 或 者 Semaphore 类 来 实现 一 个 临界 段 。 


让 我 们 看 看 下 面 的 例子 。 


4 


public void task() て 
preCriticalSection(); 
try { 
lockobject.lock() // 临界 段 开 始 
criticalSection(); 
} catch (Exception e) { 


q] 


} finally { 
lockobject.unlock(); // 临界 段 结束 
postCriticalSection(); 


15.4 多 元 复 用 模式 


多 元 复 用 设计 模式 是 互 不 机 制 的 推 。 在 这 种 情形 下 ， 规 定数 目的 任务 可 以 同时 执行 临界 段 。 这 很 有 
例如 ， 当 你 拥有 某 一 资源 的 多 个 副本 时 。 fava 实现 这 种 设计 模式 最 简单 的 方式 是 使 用 
Semaphore 类 ， 并 且 使 用 可 同时 执行 临界 段 的 任务 数 来 初始 化 该 类 。 


请 看 如 下 示例 。 


public void task() { 
preCriticalSection(); 
semaphoreObject.acquire(); 
criticalSection(); 
semaphoreObject.release(); 
postCriticalSection(); 
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这 种 设计 模式 解释 了 如 何在 某 一 共同 点 上 实现 任务 同步 的 情形 。 每 个 任务 都 必须 等 到 所 有 任务 都 到 达 同 步 
点 后 才能 继续 执行 。Java 并 发 API 提 供 了 CyclicBarrier 类 ， 它 是 这 种 设计 模式 的 一 个 实现 。 


请 看 下 面 的 例子 。 


public void task() て 
preSyncPoint(); 
barrierObject.await(); 
postSyncPoint(); 


15.6 ”双重 检查 锁定 模式 


当 你 获得 茶 个 锁 之 后 要 检查 某 项 条 件 时 ， 这 种 设计 模式 可 以 为 解决 该 问题 提供 方案 。 如 果 该 条 件 为 假 ， 你 
实际 上 也 已 经 花费 了 获取 到 理想 的 锁 所 需 的 开销 。 对 象 的 延迟 初始 化 就 是 针对 这 种 情形 的 例子 。 如 果 你 有 
一 个 类 实现 了 单 例 设计 模式 ， 那 可 能 会 有 如 下 这 样 的 代码 。 


public class Singletonf 
private static Singleton reference; 
private static final Lock lock=new ReentrantLock(); 


public static Singleton getReference() { 
try { 
lock.lock(); 
if (reference==null) { 
reference=new Object(); 


} catch (Exception e) { 
System.out.println(e); 
} finally { 
lock.unlock(); 
} 


return reference; 


可 能 的 解决 方案 就 是 在 条 件 之 中 包含 锁 。 


public class Singletonf 
private Object reference; 
private Lock lock=new ReentrantLock(); 
public Object getReference() { 
if (reference==null) { 
lock.lock(); 
if (reference == null) { 
reference=new Object(); 


es 
} 


return reference; 


} 
} 


牛 ， 你 将 要 创建 两 个 对 象 。 解 决 这 一 问题 的 最 佳 方案 


ES 


该 解决 方案 仍然 存在 问题 。 如 果 两 个 任务 同时 检查 条 
就 是 不 使 用 任何 显 式 的 同步 机 制 。 


public class Singleton { 


private static class LazySingleton { 
private static final Singleton INSTANCE = new Singleton(); 


} 


public static Singleton getSingleton() { 
return LazySingleton.INSTANCE; 


} 


1.5.7“” 读 - 写 锁 模式 
当 你 使 用 锁 来 保护 对 某 个 巷 变量 的 访问 时 ， 只 有 一 个 任务 可 以 访问 该 变量 ， 这 和 你 将 要 对 该 变量 实施 的 
操作 是 相互 独立 的 。 有 时 ， 你 的 变 AN 却 需要 读 取 很 多 次 。 这 种 情况 下 ， 锁 的 性 能 就 
会 比较 差 了 ， 因 为 所 有 读 操作 都 可 以 并 发 进行 而 不 会 带 来 任何 问题 。 为 解决 这 样 的 问题 ， 出 现 了 读 - 写 锁 
设计 模式 。 这 种 模式 定义 了 一 种 特殊 的 锁 ， 它 含有 两 个 内 部 锁 : 一 个 用 于 读 操 作 ， 而 另 一 个 用 于 写 操作 。 
该 锁 的 行为 特点 如 下 所 示 。 

。 如 果 一 个 任务 正在 执行 读 操 作 而 另 一 任务 想 要 进行 男 一 个 读 操 作 ， 那 么 另 一 任务 可 以 进行 该 操作 。 

。 如 果 一 个 任务 正在 执行 读 操 作 而 另 一 任务 想 要 进行 写 操 作 ， 那 么 另 一 任务 将 被 阻塞 ， 直 到 所 有 的 读 取 

方 都 完成 操作 为 止 。 
。 如 果 一 个 任务 正在 # RS ERRE 行 另 一 操作 〈 读 或 者 写 ) ， 那 么 另 一 任务 将 被 阻塞 
到 写 入 方 完 成 操作 F 为 止 
Java 并 发 API 中 含有 ReentrantReadwriteLock 类 ， 该 类 实现 了 这 种 设计 模式 。 如 果 你 想 从 头 开始 实现 
该 设计 模式 ， 就 必须 非 ? 常 注意 读 任务 和 写 任 务 之 间 的 优先 级 。 如 果 有 太 多 读 任务 存在 ， 那 么 写 任 务 等 待 的 
时 间 就 会 很 长 。 
1.5.8 ”线程 池 模 式 
这 种 设计 忆 式 试图 减少 为 执行 每 个 王 务 而 创建 线程 所 引入 的 开销 © 该 模式 由 一 个 线程 集合 和 一 个 待 执行 的 
任务 队列 构成 。 线 程 集合 通常 具有 固定 大 小 。 个 线程 完成 了 某 个 任务 的 执行 时 ， 它 本 身 并 不 会 结束 执 
行 ， 它 要 寻找 队列 中 的 另 一 个 任务 。 如 果 存 在 另 一 个 任务 了 么 它 将 执行 该 任务 。 如 果 不 存 在 另 一 个 任 
务 ， 那 么 该 线程 将 一 直 等 待 ， 直 到 有 任务 揪 入 队列 中 为 止 ， 但 是 线程 本 身 不 会 被 终结 。 
Java 并 发 API 包 含 一 些 实现 ExecutorService 接口 的 类 ， 该 接口 内 部 采用 了 一 个 线程 池 。 
15.9 ”线程 局 部 存储 模式 
设计 模式 定义 了 如 何 使 用 局 部 从 属于 任务 的 全 局 变量 或 静态 变量 。 当 在 某 个 类 中 有 一 个 静态 属性 

FRESE SOR 存在 如果 使用 线程 局 部 存储 则 每 个 线程 都 会 访问 该 变 
的 一 个 不 同 实例 。 
Java 并 发 API 包 含 了 ThreadLocal 类 ， 该 类 实现 了 这 种 设计 模式 。 
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线程 的 创建 和 管理 。 
。 它们 都 经 过 了 优化 ， 可 以 比 直接 使 用 线程 提供 更 好 的 性 能 。 例 如 ， 它 们 使 用 了 一 个 线程 池 ， 可 对 线程 
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总 之 ， 出 于 性 能 和 开发 时 间 方 面 的 原因 ， 在 实现 并 发 算法 之 前 ， 要 分 析 一 下 线程 API 提 供 的 高 层 机 制 。 
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若是 要 实现 一 个 并 发 算法 ， 主 要 目标 之 一 就 是 要 利用 计算 机 的 全 部 资源 ， 尤 其 是 要 充分 利用 处 理 器 或 者 核 
的 数目 。 但 是 这 个 数目 可 能 会 随时 间 推 移 而 发 生变 化 。 硬 件 是 不 断 改 进 的， 而 且 其 成 本 每 年 都 在 降低 。 


当 你 使 用 数据 分 解 来 设计 并 发 算法 时 ， 不 要 预先 假 定 应 用 程序 要 在 多 少 个 核 或 者 处 理 器 上 执行 。 要 动态 获 
取 系 统 的 有 关 信 息 (例如 ， 在 Java 中 可 以 使 用 Runtime.getRuntime().availableProcessors() 
| 3 并 且 让 你 的 算法 使 用 这 这 些 信息 来 计算 它 要 执行 的 任务 数 。 这 个 过 程 会 给 算法 执行 时 间 


如 果 你 使 用 任务 分 解 来 设计 并 发 算法 ， 情 况 就 会 更 加 复杂 。 你 要 根据 算法 中 独立 任务 的 数目 来 设计 ， 而 且 
强制 执行 较 多 的 任务 将 会 增加 由 同步 机 制 引 入 的 开销 ， 而 且 应 用 程 ) ke 体 性 能 甚至 会 更 糟糕 。 要 详细 分 
析 算 法 来 判断 是 否 要 采用 动态 的 任务 数 。 


1.6.4 ”使 用 线程 安全 API 


如 果 你 需要 在 并 发 应 用 程序 中 使 用 某 个 Java 库 ， 首 先 要 阅读 其 文档 以 了 解 该 库 是 否 为 线程 安全 的 。 如 有 果 它 
是 线程 安全 的 ， 那 么 你 可 以 在 自己 的 应 用 程序 中 使 用 它 而 不 会 出 现任 何 问题 。 如 果 它 不 是 线程 安全 的 ， 那 
么 你 有 如 下 两 个 选择 。 


。 如 果 已 经 存在 一 个 线程 安全 的 替代 方案 ， 那 么 就 应 该 使 用 该 替代 方案 。 
。 如 果 不 存在 线程 安全 的 替代 方案 ， SBC DD EP TE 
是 数据 竞争 条 件 。 


例如 ， 如 果 你 在 并 发 应 用 程序 中 需要 用 到 一 个 List ， 且 需要 在 多 个 线程 中 对 其 更 新 ， 那 么 就 不 应 该 使 用 
ArrayList 类 ， 因 为 它 不 是 线程 安全 的 。 在 这 种 情况 下 ， 你 可 以 使 用 个 线程 安 的 类 ， 例 如 
ConcurrentLinkedDeque ` CopyOnwriteArrayList A LinkedBlockingDeque s 如果 作 要 
的 类 不 是 线程 安全 的 ， 你 必须 首先 查找 一 个 线程 安全 的 替代 方案 。 采 用 并 发 API 很 可 能 比 你 所 能 实现 的 任 
何 替代 方案 都 更 加 优化 。 


1.6.5 “” 绝 不 要 假定 执行 顺序 
如 果 你 不 采用 任何 同 歩 机 制 那么 在 并 发 应 用 程序 中 任务 的 执行 顺序 是 不 确定 的 。 任 务 执 行 的 顺序 以 及 每 
个 任务 执行 的 时 间 ， 是 由 操作 系统 的 调度 器 所 决定 的 。 在 多 次 执行 时 ， 调 度 器 并 不 关心 执行 顺序 是 否 相 
同 。 下 一 次 执行 时 顺序 可 能 就 不 同 了 。 
假定 某 一 执行 顺序 的 结果 通常 会 导致 数据 竞争 问题 。 算 法 的 最 终结 果 取 决 于 任务 执行 的 顺序 。 有 时 ， 结 果 


Fi 不 
可 能 是 正确 的 ， 但 在 其 他 时 候 可 能 是 错误 的 。 检 测 导致 数据 竞争 条 件 的 原因 非常 困难 ， 因 此 你 必须 小 心 六 
慎 ， 不 要 忘记 所 有 必须 进行 同步 的 元 素 。 
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1.6.9 ”通过 对 锁 排序 来 避免 死 锁 


能 问题 。 


ee a: 2 un 
种 简单 方式 是 为 每 个 资源 都 分 配 一 个 编号 。 当 一 个 任务 需要 多 个 资源 时 ， 它 需要 按照 顺序 来 请 求 。 
例如 ， 你 有 两 个 任务 T1 和 T2， 它 们 都 需要 两 项 资源 R1 和 R2， 你 可 以 强制 它们 首先 请 求 R1 资 源 然后 请 求 R2 
资源 ， 这 样 就 不 会 发 生死 锁 。 
男 一 方面 ， 如 果 T1 首 先 请 求 了 R1 资 源 然 后 请 求 R2 资 源 ， 并 且 T2 首 先 请 求 了 R2 资 源 然后 请 求 R1 资 源 ， 那 么 
就 会 发 生死 锁 。 
这 一 技巧 的 一 种 错误 使 用 如 下 所 示 。 你 有 两 个 任务 都 需要 获得 两 个 Lock 对 象 ， 它 们 都 试图 以 不 同 顺序 来 
获取 锁 。 

public void operation1() { 

lock1.lock(); 

lock2.lock(); 

public void operation2() { 

lock2.lock(); 

lock1.lock(); 
可 能 operation1( ) 方法 执行 了 它 的 第 一 条 语句 ， 而 operation2( ) 方法 也 执行 了 它 的 第 一 条 语句 ， 这 
样 它们 都 将 等 待 另 一 个 锁 ， 也 就 发 生 了 死 锁 。 
只 要 按照 同样 的 顺序 获取 锁 ， 就 可 以 避免 这 一 点 。 如 果 按照 下 述 代码 更 改 operation2( ) 方法 ， 就 绝 不 
会 发 生死 锁 。 

public void operation2() { 

lock1.1ock(); 

lock2.lock(); 

} 
16.10 ”使 用 原子 变量 代替 同步 
当 你 要 在 两 个 或 者 多 个 任务 之 间 共 享 数据 时 ， 必 须 使 用 同步 机 制 来 保护 对 该 数据 的 访问 ， 并 且 避 免 任 何 数 
据 不 一 致 问题 。 
某 些 情 况 下 ， 你 可 以 使 用 volatile 关键 字 而 不 使 用 同步 机 制 。 如 果 只 有 一 个 任务 修改 数据 而 其 他 任务 都 
读 取 数 据 ， 那 么 你 可 以 使 用 volatile 关键 字 而 无 须 任 何 同步 机 制 ， 不 会 出 现 数据 不 一 致 问题 。 在 其 
他 场合 ， 你 需要 使 用 锁 、synchronized 关键 字 或 者 其 他 同步 方法 。 
在 Java 5 中 ， 并 发 API 中 有 一 种 新 的 变量 ， 叫 作 原子 变量 。 这 些 变量 都 是 在 单个 变量 上 支持 原子 操作 的 
类 。 它 们 含有 个 名 为 compareAndSet(oldvalue， newvalue) 的 方法 ， 该 方法 具有 一 种 机 制 ， 可 用 
于 探测 某 个 步骤 中 将 新 值 赋 给 变量 的 操作 是 否 完成 。 如 果 变 量 的 值 等 于 o1dValue ， 那 么 该 方法 将 变量 的 
值 更 改 为 newValue 并 且 返 回 true 。 和 否则 ， 该 方法 返回 false 。 以 类 似 方式 工作 的 方法 还 有 很 多 ， 例 如 
getAndIncrement() 和 getAndDecrement( ) 等 。 这 些 方法 也 都 是 原子 的 。 


该 解决 方案 是 免 锁 的 ， 也 就 是 说 不 需要 使 用 锁 或 者 任何 同步 机 制 ， 因 此 它 的 性 能 比 任何 采用 同步 机 制 的 解 
决 方案 要 好 o 


在 Java 中 可 用 的 最 重要 的 原子 变量 有 如 下 几 种 : 


AtomicInteger 
AtomicLong 
AtomicReference 
AtomicBoolean 
LongAdder 
DoubleAdder 


1.6.11 ”占有 锁 的 时 间 尽 可 能 短 


和 其 他 所 有 同步 机 制 一 样 ， 锁 允许 你 定义 一 个 临界 段 ， 一 次 只 有 一 个 任务 可 以 执行 。 当 一 个 任务 执行 该 临 
eas l E 临界 段 的 任务 都 将 被 阻塞 并 有 旦 要 等 待 该 临界 段 被 释放 。 这 样 ， 该 应 用 程序 其 实 是 以 串 
行 工作 的 * 


你 要 特别 注意 临界 段 中 的 指令 ， 因 为 如 果 不 了 解 它 的 话 会 降低 应 用 程序 的 性 能 。 你 必须 将 临界 段 定制 得 尽 
可 能 小 ， 而 且 它 必须 仅 包含 处 理 与 其 他 任务 共享 的 数据 的 指令 ， 这 样 应 用 程序 花费 在 串 行 处 理 上 的 时 间 就 
会 最 少 。 
避免 在 临界 段 中 执行 你 无 法 控制 的 代码 。 例 如 ， 你 写 了 一 个 库 ， 它 接收 一 个 用 户 自 定义 的 Callable 対象 
作为 参数 ， 但 是 该 对 象 有 时 候 需 要 由 你 启动 ， 而 你 并 不 知道 该 callable 对 象 中 到 底 有 什么 。 也 许 它 会 阻 
塞 输入 /输出 、 获 取 某 些 锁 、 调 用 你 库 中 的 其 他 方法 ， 或 者 只 是 需要 处 理 很 长 一 段 时 间 。 因 此 ， 如 果 可 能 
的 话 ， 在 你 的 库 并 不 占有 任何 锁 时 ， 再 尝试 执行 这 些 代码 。 如 采 对 你 的 算法 来 说 不 可 能 做 到 这 一 点 ， 束 在 
该 库 的 文档 中 说 明 这 一 情况 ， 并 且 尽 可 能 说 明 对 用 户 提供 的 代码 的 限制 例如， 这 些 代码 不 应 该 加 任何 
BD o 一 个 很 好 的 例子 就 是 ConcurrentHashMap 类 的 compute( ) 方法 的 文档 说 明 。 


1.6.12 ”谨慎 使 用 延迟 初始 化 


延迟 初始 化 就 是 将 对 象 的 创建 延迟 到 该 对 象 在 应 用 程序 中 首次 使 用 时 的 一 种 机 制 。 它 的 主要 优点 是 可 以 使 
为 存 使 用 最 小 化 ， 因 为 你 只 需要 创建 实际 需要 的 对 象 。 但 是 在 并 发 应 用 程序 中 它 也 可 能 引发 问题 。 


如 果 你 使 | 茶 个 万 法 初始 化 对 象 ， 并 且 该 方法 同时 被 两 个 不 同 的 任务 调用 ， 那 么 你 可 以 初始 化 两 个 不 
同 的 对 象 。 但 是 这 可 能 会 会 带 来 问题 〈 例 如 对 单 例 模式 的 类 来 说 ) ， 因为 你 只 起 为 这 些 类 创建 一 个 对 象 。 


这 一 问题 已 经 有 了 很 好 的 解决 方案 ， 这 就 是 延迟 加 载 的 单 例 模式 (请 查看 维 科 中 关于 “initialization- 
on-demand holder idiom” 的 解释 ) 。 


1.6.13 ”避免 在 临界 段 中 使 用 阻塞 操作 


阻塞 操作 是 指 阻 塞 任务 对 其 直到 某 一 事件 发 生 后 再 调用 的 操作 。 例 如 ， 当 你 从 某 一 文件 读 征 
数据 或 者 向 控制 台 输出 数据 时 ， 调 用 这 些 操作 的 任务 必须 等 待 ， 直 到 这 些 操作 完成 为 止 。 
H 


如 果 临 界 段 中 包含 了 这 样 的 操作 ， 应 用 程序 的 性 能 就 会 降低 ， 因 为 需要 执行 该 临界 段 的 任务 都 无 法 执行 临 
界 段 了 。 位 于 临界 段 中 的 操作 等 待 某 个 IO 操作 结束 ， 而 其 他 任务 则 一 直 在 等 待 临 界 段 。 


除非 必要 ， 和 否则 不 要 在 临界 段 中 加 入 阻塞 操作 。 


二 


= 


pi 


El 
> 


17 小 结 


并 发 程序 设计 包含 了 在 一 台 计 算 机 上 同时 运行 多 个 任务 或 者 进程 所 必需 的 工具 和 技术 ， 以 及 在 它们 之 间 确 
保 不 出 现 数据 丢失 和 不 一 致 所 需 的 通信 和 同步 。 


+ 


本 章 一 开始 介绍 了 并 发 的 基本 概念 。 要 完全 理解 本 书 中 的 例子 ， 你 必须 知道 并 理解 并 发 、 并 行 和 同步 等 术 
语 。 然 而 ， 发 处 理 也 会 产生 一 些 问题 ， 例如 数据 竞争 条 件 、 死 锁 、 活 锁 等 。 你 还 必须 知道 并 发 应 有 
可 能 存在 的 问题 ， 这 会 帮助 你 识别 和 解决 这 些 问题 。 


我 们 还 介绍 了 Intel 公 司 提出 的 一 个 五 步 又 的 简单 方法 i 它 用 于 将 一 个 串 行 算法 转换 成 并 发 算法 。 上 出 
展示 了 采用 Java 语 言 实现 的 一 些 并 发 设计 模式 ， 介 ae 发 应 用 程序 时 可 以 借鉴 的 技巧 。 


最 后 简单 介绍 了 Java 并 发 API 的 组 件 。 这 是 一 个 非常 丰富 的 API， 既 有 低层 机 制 ， 也 有 很 高 层 的 机 制 ， 让 你 
很 容易 实现 强大 的 并 发 应 用 程序 。 


下 一 章 ， 你 将 学 习 如 何 使 用 Java 并 发 应 用 程序 的 基本 要 素 : Thread 美和 Runnab1e 接口 。 


SE | 


Se 
E 
E 


第 2 章 使用 基本 元素 . Thread 和 Runnab1e 


执行 线程 是 并 发 应 用 程序 的 核心 。 实现 并 发 及 
线程 ， 并 这 些 线程 以 不 确定 的 | we Fame 
线程 有 两 种 方法 


。 扩 展 Thread É > 
。 实 现 Runnable 接 


本 章 将 介绍 在 Java 中 使 用 这 些 元 素 实 现 并 发 应 用 程序 的 方法 ， 主 要 内 容 如 下 。 


Java 中 的 线程 : 特征 和 状态 。 
Thread 美和 Runnab1e 接口 。 
a 和 矩阵 乘法 。 
二 个 例子 : 文件 搜索 。 


21 Java 中 的 线程 


如 今 ， 计 算 机 用 户 (以 及 移动 终端 和 平板 电脑 用 户 ) 使 用 电脑 工作 时 要 同时 使 用 不 同 的 应 用 程序 。 阅 读 新 
` 在 社交 网 络 上 发 表 文 章 或 听 音 乐 的 同时 ， 可 以 合 文字 处 理 程序 编写 文档 。 之 所 以 可 以 同时 做 以 上 所 
情 ， 是 因为 现代 操作 系统 支持 多 进程 处 理 。 


j 户 可 以 同时 执行 不 同 的 任务 。 此 外 ， 在 应 用 程序 内 部 ， 你 也 可 以 同时 做 不 同 的 事情 。 例 如 ， 如 果 你 正在 
使 用 文字 处 理 程序 ， 在 为 文本 添加 粗 体 样式 的 同时 便 可 保存 文件 。 这 是 因为 用 于 编写 这 些 应 用 程序 的 现代 
ee LEPE! 序 员 在 应 用 程序 中 创建 多 个 执行 线程 。 每 个 执行 线程 执行 不 同 的 任务 ， 这 样 你 就 可 以 同时 

事情 。 


Java 使 用 Thread 类 实现 执行 线程 。 你 可 以 使 用 以 下 机 制 在 应 用 程序 中 创建 执行 线程 。 


。 扩 展 Thread 类 并 重 载 run( ) 方法 。 
+ 实现 Runnable 接口 ， 并 将 该 类 的 对 象 传递 给 Thread 对 象 的 构造 函数 。 


这 两 种 情况 下 你 都 会 得 到 一 个 Thread 对 象 ， 但 是 相对 于 第 一 种 方式 来 说 ， 更 推荐 使 用 第 二 种 。 
势 如 下 。 


应 用 程序 时 ， 无 论 采 用 何 种 编程 语言 ， 都 必须 色 建 个 同 的 执行 
行 ， 除 非 你 使 用 同步 元 素 ， 比 如 信和 号 量 。 在 Java 中 ， 创 建 执行 


Et 


pap 


TERM 


・ Runnable 是 一 个 接口 : 你 可 以 实现 其 他 接口 并 扩展 其 他 类 。 对 于 采用 Thread 类 的 方式 ， 你 只 能 扩 
展 这 一 个 类 。 
。 可 以 通过 线程 来 执行 Runnable 对 象 ， 但 也 可 以 通过 其 他 类 似 执 行 器 的 Java 并 发 对 象 来 执行 。 这 样 可 


通 
更 灵活 地 更 改 并 发 应 用 程序 。 
义 通 过 不 同 线程 使 用 同一 Runnable 対象 ° 


J Thread 对 象 ， 就 必 


法 。 如 果 直 


接 调 


用 run( ) 方法 ， 


7 
程 语言 中 线程 最 重要 的 特征 


必须 使 


用 start( 


) 方法 创建 新 的 执行 线程 并 


那么 你 将 调 


2.1.1 Java 中 的 线程 ;特征 和 状态 


于 Java 


的 线程 ， 


H- 


フロ 


。 你 可 能 知道 ， 
建 一 个 新 Thread 并 在 该 线程 
! 的 第 一 个 线程 。 


要 说 明 的 是 ， 
Java SE 程序 通过 main( ) 方法 
执行 nain( ) 方法 。 


所 有 


Java 中 的 所 有 线程 都 
Thread.MAX PRIORITY 之 间 (3 
Thread.NORM PRIORITY 


META 言 相同 , 
HEN 


] 可 以 快速 而 简 


优先 级 (如 果 该 操 
j 象 的 优先 级 。 
线程 的 执行 顺序 
这 一 点 并 不 能 保证 。 


线程 。 


Thread 对 
种 契约 。 


正 


在 Java 中 , 7 


如 之 前 所 述 ， 


EAS RIF 
对 


Java 中 的 线程 共 3 
地 共 ER vun ° 


有 一 个 优先 


(实际 
F 执 行 ， 
于 Java 虚 拟 机 和 
没有 保证 。 


的 Java 程 序 ， 不 论 并 发 与 否 ， 


执行 Thread 类 
常规 Java 方 法 而 不 会 创建 新 的 执行 线程 。 下 面 


ne 方 


来 


看 看 Java 编 


个 名 


都 有 


启动 执行 过 


这 是 非 并 发 应 用 程序 


IVA 


N. 


JE 


内 存 和 打开 的 文件 。 


的 所 有 资源 ， 包 括 


E 


级 ， 
MLE 


这 个 整数 
] 的 


正如 第 1 章 所 述 ， 必 须 使 


但 是 ， 


N read.MIN_PRIORITY 和 


这 是 


eh 


为 主线 程 的 Thread 对 
过 程 。 。 执行 该 程序 时 ，jJava 虚 拟 机 (JVM) 将 
唯一 的 线程 ， 也 是 


并 发 应 用 


一 个 强 


大 


直 分 别 是 1 和 10) 。 所 有 线程 在 全 


它 的 


它 会 抛 


直 是 5) 
jH Sec 


线程 首选 底层 操作 


o En 以 使用 setPriority( ) 5% 


U 


ENHRUNF 
EB Thread 対象 
rityException 异常 ) 和 getPriority( ) 方法 获得 


AGRAVA, AF 


fem, MA 


优先 级 是 


级 的 线程 将 在 较 低 优先 级 


较 高 优先 


通常 , 


在 于 它们 如 


行 Runtime 类 的 exit() 方法 ， 


何 最 


最 后 ， 不 同情 况 下 线程 
getState() 方法 获取 Thread 対象 的 状 
下 o 


程序 的 所 有 非 守护 线程 均 


乡 响 程 序 的 结束 。 当 有 


f 
的 线程 之 


前 执行 ， 


级 都 是 
的 


TIT 


Java 程 序 将 结束 


下 列 情形 之 一 时 ， 
9 权 执 行 该 方法 。 


THAR 


已 结束 执行 ， 


了 的 守护 线程 。 


些 特 征 的 守护 线程 通常 
线程 是 
JS 


的 状 恋 不同 


NEW: Thread 対象 己 
RUNNABLE : Thread 対象 
BLOCKED : Thread 対 
WAITING: Thread 对 


用 在 


乍 为 垃圾 收集 器 或 缓存 管理 器 的 应 


无 论 是 否 有 正 在 运行 
程序 


执行 辅助 任务 


LL o 


日 是 ， 


执行 过 程 。 


。 你 可 以 使 


法 检 


为 守护 线程 ， 


也 可 以 使 


em + 


ta 


。 所 有 可 能 


F 始 执行 之 前 调用 此 方法 
的 状态 都 在 Thread .States 类 中 定义 。 价 


setDaemon( ) 方法 将 时 个 线程 确立 为 守护 线 


RAJ 


EE 然 ， 你 还 可 以 


2 J 


THREAD: Thread WEZ 


经 创建 ， 但 是 还 没有 开始 执行 。 
E 在 Java 虚 拟 机 中 运行 。 
象 正在 等 待 锁定 。 
象 正 在 等 待 另 一 个 线程 的 动作 。 
TIME WAITING: Thread 对 象 正在 等 待 另 一 个 线程 的 操作 ， 但 是 有 时 间 限 制 。 
已 经 完成 了 执行 。 


以 使 
接 更 改线 程 的 状态 。 线 程 的 可 外 


状态 如 


的 状 


在 给 定时 同 内 , 线程 只 能 处 于 一 个 状态 。 这 些 状态 不 能 映射 到 操作 系统 的 线程 状态 ， 它 们 是 JVM 使 
。 了 解 了 Java 编 程 语言 最 重要 的 线程 性 FE 之 后 ， 让 我 们 来 看 看 Runnable 接口 和 Thread 类 最 重要 的 
o 


2.1.2 Thread 类 和 Runnable 接口 


如 前 文 所 述 ， 


你 可 以 使 


用 以 下 任 一 机 制 创建 新 的 执行 线程 。 


e ij Thread 类 
s ZHiRunnable ¿2 


在 好 的 Java 实 践 做 法 


` 


H 
1 
a 
= 


方法 。 


对 于 第 一 种 方法 


' 都 将 采用 的 方法 


Runnable 接口 只 定义 了 一 利 


动 一 个 新 线程 时 ， 
数 形式 传 wiORunnable 対 


相反 , Thread 类 有 很 多 不 同 的 方法 。 它 有 


类 和 你 必须 调 


un() 
将 该 对 象 的 实例 传递 给 Thread 对 象 的 构造 画 数 。 


R) 


, SER 


E 


方法 : run( ) 方法 
Hrun( ) 方法 (Thread 类 的 


的 start( ) 方法 创建 新 的 和 


。 获 取 和 设置 Thread 対象 信息 的 方 法 
o getId() : 该 


法 返 回 Thread 对 象 的 标识 符 。 


在 线程 的 


o 


9getName( ) /SetName( ) : 
string WR, 


È 


先 级 。 


o Da 
已 经 解释 过 该 条 
Se 


o 


. N ER /interrupted()/isInterrupted(): 方法 表明 你 正在 i 
Thread 对 象 。 另 外 两 MO 这 些 方 Shee 区 别 在 于 ， 调 
interrupted() 方法 时 将 清除 中 断 标 志 


interrupt() 方法 不 会 结 细 


法 允许 你 将 线程 


响应 。 


join): 


等 待 另 一 个 Thread 对 
* setUncaughtExceptionHandler() : 
常 的 控制 器 。 


。 currentThread(): 


on() /setDaemon() : 


牛 的 原理 。 


sleep(): 该 
你 想 要 Thread ASE 


UTE o 


个 生命 周期 中 是 唯一 且 无 法 


改变 的 。 


IN 


o er )/setPriority(): 
上 


由 可 ende 3 


法 ・ 


第 二 种 方法 ， 这 将 是 我 们 在 本 章 以 及 整 本 书 


。 这 是 每 个 线程 的 主 方法 。 当 你 执行 start ( ) 方法 
run() 方法 或 者 在 Thread KAMA HL 


种 run( ) 方法 ， 实 现 线程 时 必须 重 载 该 方法 ， 扩 
下 面 给 出 Thread 类 的 其 他 常用 方 


该 标识 符 是 在 线程 创建 时 分 配 的 一 
这 两 种 方 法 允许 你 获取 或 设置 Thread 対象 的 名 称 


构造 函数 中 建立 。 
你 可 以 使 用 这 两 种 方法 来 获取 或 设置 Thread 対象 的 人 


paa: Re 管理 线程 的 优先 级 。 


过 Thread 对 


种 方法 允许 你 获取 或 建立 Thread 对 象 的 守护 条 


该 方法 返回 Thread 对 象 的 状态 。 之 前 已 经 介绍 象 的 所 有 可 


IKT 


停 执 行 的 毫秒 数 。 


方法 可 用 于 检查 


EThread 对 条 的 执行 ， 


的 执行 暂停 一 


MisInterrupted() 方法 不 会 。 


调 


Thread 对 象 负责 检查 标志 的 状态 


段 时 间 。 它 将 接收 一 个 long 型 值 作为 参数 ， 该 


9 暂停 调用 线程 的 执行 ， 
象 结束 。 


这 是 Thread 美的 前 


当 线 程 执行 出 现 未 校 验 异常 时 ， 该 方法 


到 调用 该 方法 的 线程 执行 结束 为 止 


o 


接 下 来 ， 


= 


将 学 习 如 何 


。 一 个 矩阵 乘法 


一 个 在 操作 系统 


E o 
查找 文件 的 应 


2.2 第 一 介 例 子 : 矩阵 乘法 


和 矩阵 乘法 是 针对 FERAHA 本 
行 n 列 的 矩阵 A ， 和 男 一 


本 方 将 实现 TARA 


用 程序 。 


运算 之 


也 
个 n 行列 的 短 降 B , 
上 乗 的 串 行 版本 算法 , 


发 和 并 行 编程 课程 中 的 经 典 问题 。 


态 方法 ， 它 返回 实际 执行 该 代码 的 Thread 対象 


这 些 方法 来 实现 如 下 两 个 示例 。 


看 看 何 时 并 发 处 理会 


2.2.1 公共 类 


为 了 实现 这 个 例子 ， 


来 更 好 的 性 能 。 


门 用 到 了 一 个 名 


矩阵。 这 个 类 有 一 下 


名 为 generate() 


个 维 数 生成 一 个 带 


上 有 随机 .double 值 的 和 矩阵。 该 


的 方法 ， 


可 以 将 两 ERBE Am 行 p 列 的 矩阵 Ce 
不 同 的 并 发 版 本 。 然 后 ， 我 们 将 比较 四 


为 MatrixGenerator 的 类 。 使 用 它 随机 生成 将 进行 乘法 
它 接收 矩阵 中 所 需 的 行 数 和 列 数 作为 参数 ， 并 基于 这 
的 源 代码 如 下 : 


可 以 使 


WR 


public class MatrixGenerator { 


public static double[][] generate (int rows, int columns) { 
double[][] ret=new double[rows][columns]; 
Random random=new Random(); 
for (int i=0; i<rows; i++) { 
for (int j=0; j<columns; j++) { 
ret[i][j]=random.nextDouble()*10; 


return ret; 


} 
} 


2.2.2 ATA 


我 価 在 Seria1Mu1tip1ier 类 中 实现 了 该 算法 的 串 行 版 本 。 该 类 只 有 一 种 静态 方法 ， F multiply () 
。 它 接收 三 个 double 型 矩阵 作为 参数 ， 其 中 两 个 矩阵 是 将 要 相 乘 的 矩阵 ， 另 一 个 矩阵 用 于 存储 结 


我 们 并 不 检查 吞 阵 的 维 数 ， 只 保证 其 正确 性 ， 并 使 用 一 个 三 重 肉 套 循 环 计 算 结 果 和 矩阵 。 
SerialMultiplier 类 的 源 代码 如 下 : 


public class SerialMultiplier { 


public static void multiply (double[][] matrix1, double[][] matrix2, 
double[][] result) { 
int rowsi=matrix1.length; 
int columnsi=matrix1[0].length; 


int columns2=matrix2[0].length; 


for (int i=0; i<rows1; i++) { 
for (int j=0; j<columns2; j++) { 
result[i][j]=0; 
for (int k=0; k<columns1; k++) { 
result [i] [j]+=matrixi[i][k]*matrix2[k][j]; 


我 们 还 实现 了 一 个 名 为 SerialMain 的 主 类 ， 用 于 测试 串 行 版 矩阵 乘法 算法 "在 main() 方法 生 
个 2000 行 2000 列 的 随机 矩阵， 并 使 用 SerialMultiplier 类 进行 两 个 矩阵 的 乘法 运 和 法 执行 时 间 的 


单位 是 毫秒 ， 如 下 所 示 : 


public class SerialMain { 
public static void main(String[] args) { 


double matrix1[][] = MatrixGenerator.generate(2000, 2000); 
double matrix2[][] = MatrixGenerator.generate(2000, 2000); 


double resultSerial[][]= new double[matrix1.length] 
[matrix2[0].length]; 


Date start=new Date(); 
SerialMultiplier.multiply(matrix1, matrix2, resultSerial); 


Date end=new Date(); 
System.out.printf("Serial: %d%n",end.getTime()-start.getTime()); 


2.2.3 ”并行 版 本 


我 们 已 经 实现 了 三 生 


A 


司 的 并 行 算 法 ， 基 于 不 同 的 粒度 实现 这 些 例子 。 


4 果 和 矩阵 中 每 个 元 素 对 应 一 个 线程 。 


ANS ANS 


果 和 矩阵 中 每 行 对 应 一 个 线程 。 


。 采 用 与 JVM 中 可 


处 理 器 数 或 核心 数 相同 的 线程 。 


让 我 们 来 看 看 这 三 个 版 本 的 源 代 丰 


的 矩阵 相 乘 ， 得 到 


在 这 个 版 本 中 ， 我 们 将 在 结果 矩阵 中 为 每 个 元 素 创建 一 个 新 的 执行 线程 。 


o 


dE 


例如 ， 将 两 个 2000 行 2000 列 


的 矩阵 将 有 4 000 000 个 元 素 ， 因 此 我 们 将 创建 4 000 000 條 Thread 対象 A 


同时 启动 所 有 线程 ， 可 能 会 使 系统 超载 ， 所 以 将 以 10 个 线程 


ANS 


AREA 


DRE o 


启动 10 个 线程 后 ， 


更 用 jo1n( ) 方法 等 待 它 们 完成 ， 而 且 一 旦 完成 ， 就 


到 启动 所 有 必需 线程 。 选 择 10 作 为 批量 处 理 线程 数 


ndividualMul 


t+ 
Oy 
ES 


数值 ， 并 查看 更 改 后 的 数值 对 算法 性 能 的 影响 。 


我 们 将 实现 IndividualMultiplierTask XflParallelIndividualMultiplier 类。 
I tiplierTask 类 将 实现 每 个 Thread 。 该 类 实现 了 Runnable 接口 ， 将 使 
部 属性 : 两 个 要 相 乘 的 矩阵 、 结 果 和 矩阵 ， 以 及 要 计算 的 元 素 的 行 和 列 。 
来 初始 化 所 9 这些 属性 : 


启动 男 外 10 个 线程 。 我 们 一 直 


为 如 果 


没有 特殊 理由 。 你 也 可 以 更 改 


JA 


我 们 将 使 用 该 类 的 构造 画 数 


this.matrix1 
this.matrix2 
this.row = i; 


private final double[][] 
private final double[][] matrix1; 
private final double[][] 


public class IndividualMultiplierTask implements Runnable { 


result; 


matrix2; 


private final int row; 
private final int column; 


public IndividualMultiplierTask(double[][] result, double[][] 


matrix1, double[][] matrix2, 
int i, int j) £ 


this.result = result; 


matrix; 
matrix2; 


this.column = j; 


run( ) 方法 将 计 和 


row 和 column 属性 决定 的 元 素 值 。 下 面 的 代码 将 


展示 如 何 实现 该 行为 。 


@Override 
public void run 
result[row][c 
for (int k = 
result[row] 


OL 

olumn] = 0; 

0; k < matrix1[row].length; k++) 

[column] += matrix1[row][k] * matrix2[k][column]; 


ParallelIndividualMultiplier 类 将 创建 所 有 必要 的 执行 线程 计算 结果 甜 阵 。 它 


multiply() 的 方法 ， 接 收 两 个 将 要 相 乘 的 矩阵 和 第 三 个 用 于 存储 结果 的 矩阵 作为 参数 。 


种 名 为 
该 类 将 处 


FEES 
所 述 ， 我 们 按照 10 个 一 组 的 方式 启动 线程 。 启 
等 待 这 10 个 线程 最 终 完成 ， 该 方法 调用 了 join( ) 方法 。 下 面 的 代码 块 展示 了 该 类 的 实现 : 


de 


ZI 


和 矩阵 的 所 有 元 素 ， 并 创建 一 个 单独 的 IndividualMultiplLierTask 类 计算 每 个 元 素 。 如 前 
10 个 线程 后 ， 可 使 用 waitForThreads( ) 辅助 方法 


public class ParallelIndividualMultiplier { 


public static void multiply(double[][] matrix1, double[][] matrix2, 
double[][] result) { 


List<Thread> threads=new ArrayList<>(); 
int rows1=matrix1.1ength: 
int rows2=matrix2.length; 


for (int i=0; i<rows1; i++) { 
for (int j=0; j<columns2; j++) { 
IndividualMultiplierTask task=new IndividualMultiplierTask 
(result, matrix1, matrix2, i, j); 
Thread thread=new Thread(task); 
thread.start(); 
threads.add(thread) ; 


if (threads.size() % 10 == 0) { 
a 


} 


private static void waitForThreads(List<Thread> threads){ 
for (Thread thread: threads) { 
try { 
thread.join(); 
} catch (InterruptedException e) { 
e.printStackTrace(); 


} 


threads.clear(); 


ee A 类 。 此 处 不 再 给 出 该 类 的 源 代码 。 
02. 第 二 个 并 发 版 本 : 每 行 一 个 线程 


一 组 启动 线程 ， 然 后 等 竺 它们 终结 ， 再 局 动 新 线程 。 


3 他 示例 相同 ， 我 们 创建 了 一 个 主 类 用 以 测试 该 示例 。 它 与 SerialMain 类 非常 相似 ， 但 在 本 例 


在 这 一 版 本 中 ， 我 们 将 在 结果 矩阵 中 为 每 一 行 创建 一 个 新 的 执行 线程 。 例 如 ， 如 果 将 两 个 2000 行 和 
2000 列 的 矩阵 相 乘 ， 就 要 创建 4 000 000 个 线程 。 正如 前 面 的 示例 中 所 做 的 那样 ， 我 们 将 以 10 个 线程 为 


> 


AVES ARowMultiplierTask 类 和 ParallelRowMultiplier 类 以 实现 该 版 本 。 


Sh 


A 


HE 
H 
SH 


da 
3 


这 些 属 性 ， 如 下 所 示 。 


public class RowMultiplierTask implements Runnable { 


private final double[][] result; 
private final double[][] matrix1; 
private final double[][] matrix2; 


private final int row; 


public RowMultiplierTask(double[][] result, double[][] matrix1, 
double[][] matrix2, int i) £ 
this.result = result; 
this.matrix1 = matrix1i; 
this.matrix2 = matrix2; 
this.row = i; 


owMultiplierTask 类 将 实现 每 个 Thread » EXM T Runnable 接口 ， 并 且 将 使 用 五 个 内 部 属 
j 个 要 相 乘 的 矩阵 、 结 果 和 矩阵 ， 以 及 要 计算 的 结果 矩阵 的 行 。 我 们 将 使 用 该 类 的 构造 画 数 来 初始 


run() 方法 有 两 个 循环 。 第 一 个 循环 将 处 理 待 计算 结 果 和 矩阵 row 中 的 所 有 元 素 ， 而 第 二 个 循环 将 计 


每 个 元 素 的 结果 值 。 


@Override 
public void run() { 
for (int j = 0; j < matrix2[0].length; j++) { 
result[row][j] = 0; 
for (int k = 0; k < matrix1[row].length; k++) { 
result[row][j] += matrix1[row][k] * matrix2[k][j]; 


ParallelRowMultiplier 类 将 创建 计算 结果 和 矩阵 所 需 的 所 有 执行 线程 。 它 有 一 种 名 为 


multiply() 的 方法 ， 该 方法 接收 两 个 待 乘 矩阵 和 第 三 个 用 于 存储 结 果 的 矩阵 作为 参数 。 它 将 处 型 
结果 和 矩阵 的 所 有 行 ， 并 创建 一 个 RowMu1ltiplierTask 处 理 每 一 行 。 如 前 所 述 ， 我 们 以 10 个 为 一 


的 方式 启动 线程 。 启 动 10 个 线程 后 ， 使 用 waitForThreads( ) 辅助 方法 等 待 这 10 个 线程 最 
它 将 调用 join( ) 方法 。 下 面 的 代码 块 展示 了 如 何 实现 这 个 类 : 


public class ParallelRowMultiplier { 


public static void multiply(double[][] matrix1, double[][] 
matrix2, double[][] result) { 


List<Thread> threads = new ArrayList<>(); 
int rows1 = matrix1.length; 


for (int i = 0; i < rows1; i++) { 
RowMultiplierTask task = new RowMultiplierTask(result, 
matrix1, matrix2, i); 
Thread thread = new Thread(task); 
thread.start(); 
threads.add(thread); 


if (threads.size() % 10 == 0) £ 
waitForThreads(threads); 


+ HF 


BER TERN, 


03. 


} 
} 
} 


private static void waitForThreads(List<Thread> threads){ 
for (Thread thread : threads) { 
try { 
thread.join(); 
} catch (InterruptedException e) { 
e.printStackTrace(); 


} 


threads.clear(); 


与 其 他 示例 相同 ， 我 们 创建 了 一 个 主 类 用 以 测试 这 个 例子 。 它 与 SerialMain 类 非常 相似 ， 但 在 本 


例 中 ， 我 们 将 它 称 为 ParallelRowMain 类 。 此 处 不 再 给 出 该 类 的 源 代码 。 
第 三 个 并 发 版 本 : 线程 的 数量 由 处 理 器 决定 


在 最 后 一 个 版 本 中 ， 只 创建 与 JVM 可 用 核 或 处 理 器 数量 相同 的 线程 。 我 们 使 用 Runtime 类 的 
availableProcessors() 方法 计算 这 一 数值 。 


teGroupMultiplierTask 美和 Para11e1GroupMu1tip1ier 类 中 实现 了 此 版 本 。 
GroupMultiplierTask 类 实现 了 我 们 将 要 创建 的 线程 。 它 实现 了 Runnable 接口 ， 并 且 使 用 了 五 
个 内 部 属性 :两 个 要 相 乘 的 和 矩阵、 结果 和 矩阵， 以 及 该 任务 将 要 计算 的 结果 甜 阵 的 初始 行 和 最 终 行 。 我 
门将 使 用 该 类 的 构造 画 数 初始 化 所 有 这 些 属性 。 下 面 的 代码 块 展示 了 如 何 实 现 类 的 第 一 部 分 


HH 


public class GroupMultiplierTask implements Runnable { 


private final double[][] result; 
private final double[][] matrix1; 
private final double[][] matrix2; 


private final int startIndex; 
private final int endIndex; 


public GroupMultiplierTask(double[][] result, double[][] 

matrix1, double[][] matrix2, 
int startIndex, int endIndex) { 

this.result = result; 

this.matrix1 = matrix1i; 

this.matrix2 = matrix2; 

this.startIndex = startIndex; 

this.endIndex = endIndex; 


run() 方法 将 使 用 三 个 循环 实现 其 计算 。 第 一 个 循环 将 检查 该 任务 将 要 计算 的 结果 矩阵 的 行 ， 第 二 
个 循环 将 处 理 每 一 行 的 所 有 元 素 ， 最 后 一 个 循环 将 计算 每 个 元 素 的 值 。 


@Override 
public void run() { 
for (int i = startIndex; i < endIndex; i++) { 
for (int j = 0; j < matrix2[0].length; j++) { 
result[i][j] = 0; 
for (int k = 0; k < matrixi[i].length; k++) { 
resu1t [1] []] += matrix1[1][k] * matrix2[k][j]; 


ri ll 类 将 创建 线程 计算 结果 矩阵 。 它 有 一 种 名 为 mulLtiply() 的 方 法 , 接 
慷 要 相 乘 的 两 个 矩阵 和 第 三 于 存放 结果 的 甜 阵 作 为 参数 。 首 先 ， 通 过 使 用 Runtime 类 的 

a ab erro eo) 方法 获取 可 用 处 理 器 的 数量 。 然 后 ， 计 算 每 个 任务 必须 处 理 的 行 ， 以 及 
创建 并 启动 这 些 线程 。 最 后 ， 使 用 join( ) 方法 等 待 线程 结束 。 


public class ParallelGroupMultiplier { 


public static void multiply(double[][] matrix1, double[][] matrix2, 
double[][] result) { 
List<Thread> threads=new ArrayList<>(); 


int rows1=matrix1.1ength: 


int numThreads=Runtime.getRuntime().availableProcessors(); 
int startIndex, endIndex, step; 

step=rows1 / numThreads; 

startIndex=0; 

endIndex=step; 


for (int i=0; i<numThreads; i++) 
GroupMultiplierTask task=new GroupMultiplierTask 
(result, matrix1, matrix2, startIndex, endIndex); 
Thread thread=new Thread(task); 
thread.start(); 
threads.add(thread); 
startIndex=endIndex; 
endIndex= i==numThreads-2?rows1:endIndex+step; 


} 


for (Thread thread: threads) { 
try { 
thread.join(); 
} catch (InterruptedException e) { 
e.printStackTrace(); 


E 他 示例 相同 ， 我 们 创建 了 一 个 主 类 测试 这 个 例子 。 它 与 SerialMain 类 非常 相似 ， 但 在 本 例 
， 我 们 将 它 称 为 Parallel6roupMain 类 。 此 处 不 再 给 出 该 类 的 源 代码 。 


04. 比较 方案 


比较 一 下 本 节 中 实现 的 乘法 器 算法 四 个 版 本 的 解决 方案 (包括 串 行 版 和 并 发 版 ) 。 为 了 测试 该 算法 ， 
我 们 已 经 使 用 JMH 框 架 执行 这 些 示例 ， 该 框架 可 支持 在 Java 中 实现 微 基准 测试 。 使 用 基准 测试 框架 
是 一 种 很 好 的 解决 方案 ， 可 以 直接 使 用 currentTimeMillis() 或 hanoTime( ) 等 方法 度量 时 间 。 
在 两 种 不 同 架构 中 ， 执 行 这 些 例 子 各 10 次 。 
。 一 台 计 算 机 配置 有 Intel Core i5-5300i 处 理 器 、Windows 7 操作 平台 和 16GB 内 存 。 该 处 理 器 有 两 个 
核 ， 每 个 核 可 以 执行 两 个 线程 ， 所 以 将 有 四 个 并 行 线程 。 


台 计 算 机 配置 有 AMD A8-640 外 理 器 Windows 10 操 作 系 统 和 8GB 内 存 ， 此 处 理 器 有 四 个 


我 们 已 用 三 种 不 同 大 小 的 随机 矩阵 测试 了 算法 : 


e 500x500 
e 1000x1000 
e 2000x2000 


下 表 给 出 了 平均 执行 时 间 以 及 标准 偏差 (単位 : BERD) 。 


算法 规模 AMD Intel 

500 1821.729+366.885 447.920+49.864 

串 行 版 1000 27 661.481+796.670 5474.942+164.447 
2000 315 457.940+32 961.165 70 968.563+4056.883 
500 43 512.382+813.131 17 152.883+170.408 

按 个 体 处 理 的 并 行 版 1000 164 968.834+1034.453 72 858.419+381.258 
2000 774 681.287+17 380.02 316 466.479+5033.577 
500 685.465+72.474 229.228+61.497 

按 行 处 理 的 并 行 版 1000 8565+437.611 3710.613+411.490 
2000 |92 923.685+11 595.433 42 655.081+1370.940 
500 515.743+51.106 133.530+12.271 

按 分 组 处 理 的 并 行 版 1000 7466.880+409.136 3862.635+368.427 
2000 86 639.811+2834.1 43 353.603+1857.568 


上 表 可 以 得 出 以 下 结论 。 


. qe 有 很 大 不 同 ， 但 是 你 
。 在 两 种 架构 上 得 到 的 结果 相 
个 体 处 理 的 并 行 版 得 到 的 结 


个 例子 告诉 我 们 ， 开 发 一 个 并 发 应 用 程序 时 必须 非常 小 心 。 如 果 没 有 选择 良好 的 解决 方案 ， 那 么 性 
能 AS LS - A 
E 


† 対 500x500 知 降 , 我 人 用 性 能 最 佳 的 井 色 版本 和 申 行 版 本 求 取 加 速 比 , DARAS AA 
性 能 的 改进 情况 。 


电脑 处 理 器 、 操 作 系统 、 内 存 和 硬盘 等 的 配置 不 
行 版 和 按 行 处 理 的 并 行 版 得 到 了 最 佳 结果 ， 而 按 


& 
S 
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了 


a Tserial 1821.729 =; 
SAMD en AE N .53 
Teoncurrent 515.743 
y Tserial _ 447. 920 É 

ら Tntel = り 


Teoncurrent ~- 1: 133.530 De 30 


所 有 操作 系统 都 提供 了 一 种 功能 ， 即 在 文件 系统 中 搜索 符合 某 种 条 件 的 文件 。 (例如 ， 按 照 名 称 或 部 
分 名 称 、 修 改 日 期 等 进行 搜索 。) 在 我 们 的 示例 中 将 实现 一 个 算法 ， 用 于 查找 具有 预定 名 称 的 文件 。 
该 算法 将 采 至 和 要 查找 的 文件 作为 输入 。JDK 提 供 了 遍历 目录 树 结构 的 功能 ， 因 
此 不 需要 再 次 在 实际 应 用 中 自己 实现 它 。 


231 公共 美 


这 两 个 版 本 的 算法 将 共享 一 个 公共 类 用 以 存储 搜索 结果 。 我 们 将 其 称 为 Result É, MERMA 
PE: 一 个 名 为 found 的 Boolean 值 ， 用 于 判定 是 否 找 到 了 正在 查找 的 文件 ， 一 个 名 为 path 的 


y 
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String 值 。 如 果 找 到 了 该 文件 ， 就 将 其 完整 路 径 存 放 在 该 属性 中 。 
这 个 类 的 代码 非常 简单 ， 所 以 此 处 不 再 给 出 源 代码 。 
232 RA 

这 个 算法 的 串 行 版 本 非常 简单 。 搜 索 初 始 路 径 ， 人 并 对 其 进行 处 理 。 对 于 文件 来 
说 ， 会 将 其 名 称 与 正在 寻找 的 名 称 进行 比较 。 如 果 相 同 ， 则 将 其 填 入 Result 对 象 并 完成 算法 执行 。 
对 于 各 目录 来 说 ， 我 们 对 本 操作 进行 递归 调用 ， 以 便 在 这 些 目 录 中 搜索 文件 。 


我 们 将 在 SerialFileSearch 美的 searchFi1es( ) 方法 中 实现 这 个 操作 。SerialFileSearch 
类 的 源 代码 如 下 : 


==) 


public class SerialFileSearch { 


public static void searchFiles(File file, String fileName, 
Result result) { 


File[] contents; 
contents=file.listFiles(); 


if ((contents==null) || (contents.length==0)) て 
return; 


for (File content : contents) { 
if (content.isDirectory()) { 
searchFiles(content, fileName, result); 
} else { 
if (content.getName().equals(fileName)) { 
result.setPath(content.getAbsolutePath()); 
result.setFound(true); 
System.out.printf("Serial Search: Path: %s%n", 
result .getPath( ) ) 


return: 
} 
} 
if (result.isFound()) { 
return; 
} 
} 
} 
233 ”并 发 版 本 
行 化 该 算法 有 多 种 方法 (如 下 所 示 ) 。 
。 你 可 以 为 我 们 要 处 理 的 每 个 目录 创建 一 个 执行 线程 。 
。 am Mt A Se, FIETERERTRE > MUERTA BLA E DY FA RE E FS UT E 
。 你 可 以 使 用 与 JVM 的 可 用 核 数 相 同 的 线程 数 。 
次 只 有 一 个 线程 可 以 读 取 磁 盘 ， 所 


在 这 种 情况 下 ， 我 们 必须 考虑 到 算法 将 集中 使 用 MO 操作 。 因 为 
以 不 是 所 有 解决 方案 都 会 提高 算法 捉 行 版 本 的 性 能 。 


我 们 将 按照 最 后 一 种 供 选 方案 实现 并 发 版 本 * 将 在 一 个 ConcurrentLinkedQueue (一 个 可 以 在 并 
发 应 用 程序 中 使 用 的 队列 Queue 接口 实现 ) 中 存储 初始 路 径 所 包含 的 目录 ， 并 创建 与 JVM 可 用 处 理 
器 数量 相同 的 线程 。 每 个 线程 将 从 队列 中 获取 一 条 路 径 ， 并 处 理 该 目录 及 其 所 有 子 目 录 和 其 中 的 文 
牛 。 线 程 处 理 完 毕 该 目录 中 的 所 有 文件 和 目录 时 ， 将 从 队列 中 提取 另 一 个 目录 。 
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如 果 其 中 一 个 线程 找到 了 正在 查找 的 文件 ， 该 线程 会 立即 终止 执行 。 在 这 种 情况 下 ， 我 们 使 用 
interrupt() 方法 结束 其 他 线程 的 执行 。 


我 们 在 Parallel6roupFileTask 类 和 ParallelGroupFileSearch 类 中 实现 了 该 版 本 的 算法 。 
ParallelGroupFileTask 类 实现 了 所 有 将 用 于 查找 文件 的 线程 。 它 实现 了 Runnable 接口 并 且 使 
了 四 个 内 部 属性 :一 个 名 为 fileName 的 String 属性 ， 用 于 存储 待 查找 文件 的 名 称 ; 名 大 
directories 的 File 対象 的 ConcurrentLinkedQueue ， 用 于 存放 将 要 处 理 的 目录 列表 ; 一 个 
名 为 parallelResult Result 对 象 ， 于 存储 搜索 结 ; ! 个 名 为 found 的 Boo1ean 属 


于 标记 是 否 发 现 了 正在 寻找 的 文件 。 我 们 将 使 用 该 类 的 构造 画 数 初始 化 所 有 属性 : 


IL 


public class ParallelGroupFileTask implements Runnable { 


private final String fileName; 

private final ConcurrentLinkedQueue<File> directories; 
private final Result parallelResult; 

private boolean found; 


public ParallelGroupFileTask(String fileName, Result parallelResult, 
ConcurrentLinkedQueue<File>directories) { 
this.fileName = fileName; 
this.parallelResult = parallelResult; 
this.directories = directories; 
this.found = false; 


run( ) 方法 有 一 个 循环 ， 在 队列 中 有 元 素 并 且 没 有 找到 该 文 被 执行 。 它 使 用 
ConcurrentLinkedQueue 美的 po11( ) 方法 处 理 下 一 个 调用 辅助 方法 
processDirectory()。 如 果 找 到 了 这 个 文件 (Found aie true) , 那 久 使用 return 语句 结 


束 线 程 。 


@Override 
public void run() { 
while (directories.size() > 0) { 
File file = directories.poll(); 
try { 
processDirectory(file, fileName, parallelResult); 
if (found) { 
System.out.printf("%s has found the file%n", 
Thread.currentThread().getName()); 
System.out.printf("Parallel Search: Path: %s%n", 
parallelResult.getPath()); 
return; 


} 
} catch (InterruptedException e) { 
System.out.printf("%s has been interrupted%n", 
Thread.currentThread().getName()); 


T 


如 果 找 到 了 作为 参数 的 文件 ，processDirectory( ) 方法 将 接收 存放 待 处 理 目录 的 File WA IE 
在 查找 的 文件 名 和 存放 结果 的 Result 对 象 。 它 使 用 listFiles() SEF ile 対象 的 内 容 
ue 方法 可 返回 File 对 象 数 组 并 对 其 进行 处 理 。 对 于 目录 来 说 ， 这 将 建立 一 个 新 对 象 对 
该 方法 进行 递归 调用 。 对 于 文件 来 说 ， 该 方法 将 调用 辅助 的 processFile( ) 方法 : 


private void processDirectory(File file, String fileName, 
Result parallelResult) throws 


InterruptedException { 
File[] contents; 
contents = file.listFiles(); 


if ((contents == null) || (contents.length == 0)) { 
return; 


for (File content : contents) { 
if (content.isDirectory()) { 
processDirectory(content, fileName, parallelResult); 
if (Thread.currentThread().isInterrupted()) { 
throw new InterruptedException(); 


} 
if (found) { 
return; 


else { 

processFile(content, fileName, parallelResult); 

if (Thread.currentThread().isInterrupted()) { 
throw new InterruptedException(); 


こつ 


} 
if (found) { 
return; 
} 
} 
} 
} 


在 处 理 完 每 个 目录 和 文件 之 后 ， 还 要 检查 线程 是 否 被 中 断 。 我 们 使 用 Thread 美的 
currentThread( ) 方法 获取 执行 该 任务 的 Thread 对 象 ， 然 后 使 用 isInterrupted() 方法 来 验 
证 线程 是 否 被 中 断 。 EBEN. 我 们 将 抛 出 一 个 新 的 InterruptedExeption 异常 ,在 
run( ) 方法 中 捕捉 该 异常 以 结束 线程 的 执行 。 这 种 机 制 使 我 们 能 够 在 找到 文件 后 完成 搜索 。 


我 们 还 要 检查 found 属性 是 否 为 true 。 如 果 为 true ， 我 们 将 立即 返回 以 完成 线程 的 执行 
如 果 找 到 了 作为 参数 的 文件 ，processFile( ) 方法 接收 存储 待 处 理 文件 的 File 对 象 、 待 查找 文件 


的 名 称 、 存 放 操 作 结 果 的 Result 对 象 。 我 们 将 当前 处 理 File 的 名 称 与 正在 查找 的 文件 名 称 进 行 比 
较 。 如 果 两 个 名 称 相同 ， 那 么 填 入 Result 对 象 并 且 将 found 属性 设置 为 true , 如 下 所 示 : 


o 
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private void processFile(File content, String fileName, 
Result parallelResult) { 
if (content.getName().equals(fileName)) { 
parallelResult.setPath(content.getAbsolutePath()); 
this.found = true; 
} 
} 


public boolean getFound() { 
return found; 


ParallelGroupFileSearch 类 使 用 辅助 任务 实现 了 整个 算法 。 它 将 实现 静态 的 searchFiles() 
方法 ， 接 收 一 个 指向 搜索 基本 路 径 的 File 对 象 、 一 个 存储 当前 查找 文件 名 称 的 fileName 的 
String、 存 放 操 作 结果 的 Result 对 象 作为 参数 。 
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先 、 倒 建 ConcurrentLinkedQueue 対象 , 将 基本 路 径 所 包含 的 所 有 目录 存放 在 其 
所 示 : 


public class ParallelGroupFileSearch { 


public static void searchFiles(File file, String fileName, 
Result parallelResult) { 


ConcurrentLinkedQueue<File> directories = new 
ConcurrentLinkedQueue<>( ) ; 
File[] contents = file.listFiles(); 


for (File content : contents) { 
if (content.isDirectory()) { 
directories.add(content); 
} 
} 


È 
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然后 ， 我 们 使 用 Runtime 美的 availab1eProcessors( ) 方法 获得 JVM 可 用 线程 的 数量 ， 创 
个 ParallelFileGroupTask 对 象 ， 并 且 为 每 个 处 理 器 创建 一 个 Thread * 


int numThreads = Runtime.getRuntime().availableProcessors(); 

Thread[] threads = new Thread[numThreads]; 

ParallelGroupFileTask[] tasks = new ParallelGroupFileTask 
[numThreads]; 


for (int i 
tasks[i] 


0; i < numThreads; i++) { 
new ParallelGroupFileTask(fileName, parallelResult, 
directories); 


threads[i] = new Thread(tasks[i]); 
threads[i].start(); 
} 


最 后 ， 等 待 某 个 线程 找到 文件 或 者 所 有 线程 都 完成 执行 为 止 。 对 于 第 一 种 情况 ， 使 用 interrupt() 
方法 和 前 面 提 到 的 机 制 取 消 其 他 线程 的 执行 。 使 用 Thread 类 的 getState( ) 方法 检查 各 个 线程 是 否 
已 完成 执行 ， 如 下 所 示 : 


boolean finish = false; 
int numFinished = 0; 


while (!finish) { 
numFinished = 0; 
for (int i = 0; i < threads.length; i++) { 
if (threads[i].getState() == State.TERMINATED) { 
numFinished++; 
if (tasks[i].getFound()) { 
finish = true; 
} 
} 
} 
if (numFinished == threads.length) { 
finish = true; 
} 


if (numFinished != threads.length) { 
for (Thread thread : threads) { 
thread.interrupt(); 
} 


} 
} 


2.3.4 对 比 解决 方案 
比较 一 下 本 节 中 实现 的 乘法 器 算法 四 个 版 本 的 解决 方案 〈 串 行 版 和 并 发 版 ) 。 为 了 测试 该 算法 ， 我 们 
使 用 JMH 框 架 执行 这 些 示 例 ， 该 框架 可 支持 用 Java 语 言 实现 微 基 准 测试 。 使 用 基准 测试 框架 是 
很 好 的 解决 方案 ， 它 可 以 直接 使 用 currentTimeMillis() 或 nanoTime( ) 等 方法 来 计算 时 间 。 我 
们 在 两 种 不 同 架 构 中 执行 这 些 例子 各 10 次 。 
。 一 台 计 算 机 配置 有 Intel Core i5-5300i 处 理 器 、Windows 7 操作 系统 和 16GB 内 存 。 该 处 理 器 有 两 个 
核 ， 每 个 核 可 以 执行 两 个 线程 ， 所 以 将 有 四 个 并 行 线程 。 
。 另 一 台 计 算 机 配置 有 AMD A8-640 处 理 器 、Windows 10 操 作 系 统 和 8GB 内 存 。 该 处 理 器 有 四 个 
核 。 
在 Windows 目 录 下 用 两 个 不 同 的 文件 名 测试 算法 : 
。 hosts 
e yyy.yyy 
我 们 已 经 在 Windows 操 作 系统 上 测试 了 算法 。 第 一 个 文件 存在 而 第 二 个 文件 不 存在 。 如 果 你 使 用 了 其 
芷 系统 ， 要 相应 地 更 改 文件 的 名 称 。 以 下 表格 给 出 了 以 毫秒 为 单位 的 平均 执行 时 间 及 其 标准 仿 
算法 范围 AMD Intel 
時 hosts 5869.019+124.548 2955.535+69.252 
a yyy.yyy 26 474.179+785.680 14 508.276+195.725 
ae hosts 2792.313+100.885 1972.248+193.386 
É yyyyyy 21 337.288+954.344 12 742.856+361.681 
我 们 可 以 得 出 以 下 结论 。 
。 这 两 种 架构 的 性 能 有 所 区 别 ， 但 是 你 必须 考虑 到 它们 的 处 Bias 操作 系统 、 内 存 和 硬盘 不 同 。 
。 在 两 种 架构 上 得 到 的 结果 相同 “。 并 行 算法 的 性 能 优 于 串 行 算法 。 对 hosts 文 件 的 搜索 来 说 ， 这 种 性 
能 差异 要 比 查 找 不 存在 的 文件 更 大 。 
我 们 可 以 用 搜索 hosts 文 件 性 能 最 好 的 并 发 版 本 和 串 行 版 本 求 取 加 速 比 ， 以 此 来 观察 采用 并 发 处 理 如 何 
提高 算法 的 性 能 。 
Sim Teerial u 5869.019 - 3.10 
7 e. = Teoncurrent 7 2792. 313 
E Tzerial 2955. 535 E 
SIntel 一 二 = 一 一 1.5 
Teoncurrent 1972.248 
2.4 人 小结 
本 章 介 绍 了 在 Java 中 创建 执行 线程 的 最 基本 元 素 : Runnable 接口 和 Thread 类 。 在 Java 中 ， 创 建 线 
程 的 广 式 有 两 种 。 
。 扩 展 Thread 类 重 載 run( ) 方法 。 
。 实现 Runnable 接口 ， 并 且 将 该 类 的 对 象 传递 给 Thread RAM HAL o 
第 二 种 机 制 比 第 更 受 欢 迎 ， 因 为 它 带 来 了 更 大 的 灵活 性 。 


我 们 还 了 解 了 Thread 类 中 有 许多 不 同 的 方法 。 用 这 些 方法 可 上 获取 线程 信 更 改线 程 的 优先 级 ， 
或 者 等 待 线程 结束 。 我 们 在 两 个 例子 中 使 用 了 所 有 这 些 方法 ， 其 中 一 个 例子 是 矩阵 乘法 ， 另 一 个 例子 
是 在 目录 中 搜索 文件 。 在 这 两 种 情况 下 ， 才 处 理 旦 现 的 性 能 更 好 ， 但 是 我 们 也 明 了 ， 实 现 算法 的 
发 必须 小 心 。 若 使 用 并 发 处 理 的 方式 不 合适 ， 那 么 性 能 也 会 糟糕 。 


n 
下 一 章 将 介绍 执行 器 框架 ， 在 该 框架 下 创建 并 发 应 用 程序 时 不 必 担 心 线程 的 创建 和 管理 。 
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第 3 章 管理 大 量 线程 执行 器 


实现 简单 的 并 发 应 用 程序 时 ， 要 为 每 个 并 发 任务 创建 一 个 线程 并 执行 。 这 种 方式 会 引发 一 些 重要 问 
题 。 从 Java 5 开始 ，Java 并 发 API 便 引入 了 执行 器 框架 ， 用 以 改善 那些 执行 大 量 并 发 任务 的 并 发 应 用 程 


序 的 性 能 。 本 章 将 介绍 以 下 内 容 。 


。 执 行 器 简介 。 
。 第 一 个 例子 : K -最 近邻 
ER e 。 


3.1 执行 器 简介 
第 2 章 已 经 介绍 过 ，Java 实 现 并 发 应 用 程序 的 基本 机 制 如 下 。 


。 实 现 了 Runnable 接口 的 类 : 这 是 要 以 并 发 方式 实现 的 代码 。 
。Thread 类 的 一 个 实例 : 这 是 将 以 并 发 方式 执行 该 代码 的 线程 。 


这 种 方式 可 以 创建 并 管理 Thread 对 象 ， 并 且 实 现 线程 间 的 同步 机 制 。 然 而 ， 这 也 会 带 来 一 些 问题 ， 
尤其 对 那些 具有 大 量 并 发 任务 的 应 用 程序 来 说 更 是 如 此 。 如 果 线 程 太 多 ， 就 会 降低 应 用 程序 性 能 ， 其 
至 会 使 整个 系统 中 断 运 行 。 


Java 5 引入 了 执行 器 框架 解决 这 些 问 题 ， 并 且 提 供 了 一 个 高 效 的 解决 方案 ， 相 对 于 传统 并 发 机 制 而 
言 ， 该 解决 方案 更 便于 编程 人 员 使 用 。 
前 


在 本 章 中 ， 我 们 将 通过 实现 如 下 两 个 使 用 执行 器 框架 的 例子 ， 介 绍 该 框架 的 基本 特征 。 


。 上 -最 近邻 算法 ， 这 是 一 种 用 于 分 类 的 基本 机 器 学 习 算法 。 它 基于 训练 数据 集中 K 个 与 测试 范例 标 
签 最 相似 的 范例 确定 测试 范例 的 标签 。 
O E 当前 ， 能 够 将 信息 提供 给 成 千 上 万 个 客户 端的 应 用 程序 非常 

采用 最 佳 方式 实现 系统 的 服务 器 端 非常 必要 。 


第 4 章 和 第 5 章 将 介绍 执行 器 的 更 多 高 级 特性 。 
3.1.1 执行 器 的 基本 特征 
执行 器 的 主要 特征 如 下 。 


。 不 需要 创建 任何 Thread 対象 * 如果 要 执行 一 个 并 发 任务 ， 只 需要 创建 一 个 执行 该 任务 (例如 一 
个 实现 Runnable 接口 的 类 ) 的 实例 并 且 将 其 发 送 给 执行 器 。 执 行 器 会 管理 执行 该 任务 的 线程 。 
。 执 行 器 通过 重新 使 用 线程 来 缩减 线程 创建 带 来 的 开销 。 在 内 部 ， 执 行 器 管理 着 一 个 线程 池 ， 其 中 
的 线程 称 为 工作 线程 (worker-thread) 。 如 果 向 执行 器 发 送 任务 而 且 存 在 某 一 空闲 的 工作 线程 ， 
那么 执行 器 束 会 使 用 该 线程 执行 任务 。 
o 使 用 执行 器 控制 资源 很 容易 。 可 以 限制 执行 器 工作 线程 的 最 大 数目。 如 果 发 送 的 任务 数 多 于 工 
线程 数 ， 那 么 执行 器 就 会 将 任务 存 入 一 个 队列 当 工 作 线程 完成 某 个 任务 的 执行 后 ， 将 从 队列 
调 取 另 一 个 任务 继续 执行 。 
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。 你 必须 以 显 式 方式 结束 执行 器 的 执行 ， 必 须 告 诉 执行 器 完成 执行 之 后 终止 所 创建 的 线程 。 如 若 不 
然 ， 执 行 器 则 不 会 结束 执行 ， 这 样 应 用 程序 也 不 会 结束 。 
执行 器 还 有 一 些 更 有 用 的 特征 ， 使 其 更 加 强大 、 有 灵活。 
3.1.2 ”执行 器 框架 的 基本 组 件 
执行 器 框架 中 含有 各 种 接口 和 类 ， 它 们 可 实现 执行 器 提供 的 全 部 功能 。 该 框架 的 基本 组 件 如 下 。 
。 Executor 接口 : 这 是 Executor 框架 的 基本 接口 。 它 仅 定 义 了 一 个 方法 ， 即 允许 编程 人 员 向 
执行 器 发 送 一 个 Runnable 対象 
。ExecutorService 接口 ， 该 接口 扩展 了 Executor 接口 并 且 包 括 更 多 方法 ， 增 加 了 该 框架 的 
功能 ， 例 如 以 下 所 述 。 
o 执行 可 返回 结果 的 任务 : Runnable 接口 提供 的 run( ) 方法 并 不 会 返回 结果 ， 但 是 借用 执 
行 器 ， 任 务 可 以 返回 结果 。 
o 通过 单个 方法 调用 执行 一 个 任务 列表 。 
o 结束 执行 器 的 执行 并 且 等 待 其 终止 。 
。 ThreadPoolExecutor É. 该 类 实现 了 Executor 接口 和 ExecutorService 接口 。 此 外 ， 
它 还 包含 一 些 其 他 获取 执行 器 状态 作 线 程 的 数量 、 已 执行 任务 的 数量 等 ) 的 方法 、 确 定 执行 
器 参数 〈 工 作 线程 的 最 小 和 最 大 数目 、 空 闲 线程 等 待 新 任务 的 时 间 等 ) 的 方法 ， 以 及 支持 编程 人 
员 扩 展 和 调整 其 功能 的 方法 。 
e Executors E. 该 类 为 创建 Executor 对 象 和 其 他 相关 类 提供 了 实用 方法 。 
3.2 ”第 一 个 例子 : K -最 近邻 算法 
最 邻近 算法 是 用 于 监督 分 类 的 简单 机 器 学 习 算法 。 该 算法 的 主要 组 成 部 分 如 下 所 示 。 
。 训练 数据 集 : 该 数据 集 由 实例 构成 ， 包括 定义 每 个 实例 的 一 个 或 者 多 个 属性 ， 以 及 一 个 可 
确定 实例 标签 的 特殊 属性 。 
。 nn 该 指标 用 于 确定 训练 数据 集 的 实例 与 你 想 要 分 类 的 新 实例 之 间 的 距离 (或 者 说 相似 
。 测试 数据 集 : 该 数据 集 用 于 度量 算法 的 行为 。 
对 某 个 实例 进行 分 类 上 时， 该 算法 计算 该 实例 和 训练 数据 集 所 有 实例 的 距离 。 然 后 ， 选 取 k 个 距离 最 令 
近 的 实例 看 这 些 实例 的 标签 。 实 例 最 多 的 标签 将 被 指派 为 输入 实例 的 标签 。 
在 本 章 中 ， 我 们 将 采用 UCI 机 器 学 习 资 源 库 (UCI Machine Learning Repository) 的 Bank Marketing 
数据 集 。 为 了 度量 实例 之 间 的 距离 ， 我 们 将 采用 欧 氏 距离 (Euclidean distance) 。 该 指标 要 求实 例 的 
所 有 属性 必须 有 数值 。Bank Marketing 数 据 集 的 一 些 属性 是 “类 别 型 的 "， 也 就 是 说 ， 这 些 属性 可 以 从 
一 些 预定 义 值 中 取 值 ， 这 样 就 不 能 直接 对 该 数据 集 使 用 欧 氏 距离 。 可 以 为 每 个 类 别 型 的 值 指派 一 个 序 
号 。 例 如 ， 对 于 婚姻 状况 来 说 ， 可 用 0 代表 单身 INEO, 。 然 而 ， 这 可 能 意味 着 离 
婚 的 人 与 已 婚 的 人 之 间 的 距离 要 比 其 与 单身 的 人 之 间 的 距离 更 近 ， 而 这 一 点 也 值得 商检 。 如 果 使 所 
有 的 类 别 型 取 值 的 距离 相同 ， 还 要 为 此 单独 创建 属性 ， EE 单身 和 离婚 ， 而 每 个 属性 都 只 有 
ME: 0 (F) 和 1 (E) o 
数据 集 有 66 个 属性 和 两 个 可 能 的 标签 : 是 和 否 。 我 们 还 将 数据 划分 成 如 下 两 个 子 集 
。 训练 数据 集 : 有 39 129 个 实例 。 
。 测试 数据 集 : 有 2059 个 实例 。 
正如 第 1 章 中 所 述 ， 我 们 首先 实现 了 该 算法 的 串 行 版 本 。 然 后 ， 寻 找 该 算法 中 可 以 进行 并 行 处 理 的 部 
分 ,之 后 采用 执行 器 框架 执行 并 发 任务 。 在 下 面 几 节 中 ， 我 们 将 剖析 k -最 近邻 算法 的 串 行 版 本 和 两 个 
不 同 的 并 发 版 本 ， 其 中 第 一 个 并 发 版 本 具 有 非常 细 的 粒度 ， 而 第 二 个 并 发 版 本 则 具有 较 粗 的 粒度 。 


3.2.1 - 最 近郊 算法 : 串 行 版 本 


我 们 在 Knnclassifier 类 中 实现 k -最 近邻 算法 的 


HH 


nt 


行 版 本 。 该 类 内 存储 了 训练 数据 集 和 数 人 


于 确定 某 个 实例 标签 的 范例 数量 ) ・ | 


public class KnnClassifier { 


private final List <? extends Sample>dataSet; 
private int k; 


public KnnClassifier(List <? extends Sample>dataSet, int k) { 
this. dataSet=dataSet; 
this.k=k; 

} 


KnnClassifier 类 仅 实现 了 一 个 名 


而 该 对 象 中 含 待 分 类 的 实例 ; classify 方法 返回 一 个 字符 


守 串 ， 其 中 含有 要 指派 给 该 实例 的 标签 


o 


为 classify 的 方法 ， 该 方法 接收 一 个 Sample 对 象 作 为 参数 ， 


public String classify (Sample example) { 


该 方法 包括 三 个 主要 的 部 分 。 


先 ， 计 算 范 例 和 训练 集 所 有 范例 之 间 的 距离 。 


Distance[] distances=new Distance[dataSet.size()]; 
int index=0; 


for (Sample localExample : dataSet) { 
distances[index]=new Distance(); 
distances[index].setIndex(index); 
distances[index].setDistance(EuclideanDistanceCalculator 


.calculate(localExample, example)); 
index++; 


} 


Ci, WEHArrays.sort() 方法 按照 距离 从 低 到 高 的 顺序 排列 范例 。 


Arrays.sort(distances); 


最 后 ， 我 们 在 K 个 最 邻近 的 范例 中 统计 实例 最 多 的 标签 。 


Map<String, Integer> results = new HashMap<>(); 
for (int i = 0; i < k; i++) £ 


Sample localExample = dataSet.get(distances[i].getIndex()); 
String tag = localExample.getTag(); 
results.merge(tag, 1, (a, b) ->a+b); 


return Collections.max(results.entrySet(), 
Map.Entry.comparingByValue()).getKey(); 


为 了 计算 两 个 范例 之 间 的 距离 ， 可 以 使 用 以 辅助 类 形式 实现 的 欧 氏 距离 。 该 类 的 代码 如 下 : 


public class EuclideanDistanceCalculator { 
public static double calculate (Sample example1, Sample example2) { 
double ret=0.0d; 


double[] datal=example1.getExample(); 
double[] data2=example2.getExample(); 


if (datai.length!=data2. length) { 


throw new IllegalArgumentException ("Vector doesn't have 
the same length"); 
} 


for (int i=0; i<data1l.length; i++) { 
ret+=Math.pow(data1[i]-data2[i], 2); 


} 
return Math.sqrt(ret); 


我 们 还 可 以 用 Distance 类 存放 Sample 输入 和 训练 数据 集中 某 一 实例 之 间 的 距离 。 该 类 只 有 两 个 属 
性 : 训练 集 范例 的 索引 和 它 到 输入 范例 的 距离 。 此 外 ， 该 类 还 采用 Arrays . sort( ) 方法 实现 了 


5 
=] 


Comparable $0 > Sample 类 中 存放 了 一 个 实例 。 它 只 有 一 个 双 精 度 型 数组 和 一 个 含 


该 实例 标签 


的 字符 串 。 


3.2.2 - 最 近郊 算法 : 细 粒 度 并 发 版 本 
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果 你 分 析 一 下 k -最 近邻 算法 的 串 行 版 本 ， 就 会 发 现在 如 下 两 处 可 以 进行 算法 的 并 行 处 到 


o 


° poole, 在 每 次 循环 迭代 中 都 会 计算 输入 范例 和 训练 集 某 个 范例 之 间 的 距离 ， 
均 独 BS VIER < 


而 每 次 迭代 


。 距离 的 排序 Java 8 在 Array 类 中 引入 了 parallelSsort() 方法 ， 可 以 使 用 并 行 方式 对 数组 进 


行 排序 。 


算 # 


存放 执行 器 中 工作 线程 数 的 属性 ， 以 及 一 个 用 于 指定 是 否 要 进行 并 行 排序 的 属性 。 


我 们 将 创建 一 个 线程 数 固定 的 执行 器 ， 这 样 就 可 以 控制 该 执行 器 将 要 使 用 的 系统 资源 。 这 个 数值 可 通 


在 算法 的 第 个 并 行 版 本 中 ， 我 们 为 待 计算 范例 间 的 每 个 距离 创建 一 个 任务 ， 也 使 距离 数组 的 并 发 排 
序 成 为 可 能 。 我 们 在 一 个 名 knnClassirierparraLiéiInd da 的 类 中 实现 了 这 一 版 本 的 
法 。 该 类 中 存放 了 训练 数据 集 、 参 数 K、 执 行 并 行 任务 的 ThreadPoo1IExecutor 对 象 、 一 个 用 了 


可 
过 系统 中 可 用 处 理 器 的 数目 (用 Runtime 类 的 availableProcessors() 方法 获得 ) INTER 


= 


数 中 参 数 factor 的 值得 到 。factor 的 值 就 是 你 从 处 理 器 获得 的 线程 数 。 我 们 总 是 使 
过 你 也 可 以 测试 一 下 其 他 值 并且 对 比 结果 。 下 面 是 分 类 算法 的 构造 函数 : 


数值 1 ， 不 


public class KnnClassifierParallelIndividual { 


private final List<? extends Sample>dataSet; 
private final int k; 

private final ThreadPoolExecutor executor; 
private final int numThreads; 

private final boolean parallelSort; 


public KnnClassifierParallelIndividual(List<? extends Sample>dataset, 
int k, int factor, 
booleanparallelSort) { 


this.dataSet=dataSet; 

this.k=k; 

numThreads=factor* (Runtime.getRuntime().availableProcessors()); 
executor=(ThreadPoolExecutor )Executors 


.newFixedThreadPoo1(numThreads ) ; 
this.parallelSort=parallelSort; 


= 


要 创建 执行 器 ， 我 们 要 使 用 Executors 工具 美 及 其 newFixedThreadPoo1( ) 方法 。 该 方法 接收 的 
是 你 打算 在 执行 器 中 使 用 的 工作 线程 数 。 执 行 器 的 工作 线程 数 绝 不 会 超过 你 在 该 构造 画 数 中 指定 的 数 
目 。 该 方法 返 可 一 个 ExecutorService 对 象 ， 但 是 我 们 将 其 强制 类 型 转换 为 一 个 
ThreadPoo1Executor 对 象 ， 以 便 访问 那些 在 ThreadPoolExecutor 类 中 提供 但 是 在 
ExecutorService 接口 中 没有 提供 的 方法 。 


m 


该 类 还 实现 了 classify() 方法 ， 它 接收 一 


先 ， 为 每 个 需要 计算 的 距离 创建 一 个 任务 ， 并 且 将 其 发 送 给 执 Ei 然后 ， 主线 程 等 待 这 些 任务 执 
行 结 束 。 为 了 控制 该 完成 过 条 门 使 用 了 Java 并 发 API 提 供 的 一 种 同步 机 制 : CountDownLatch 
类 。 该 类 允许 一 个 线程 一 直 等 待 ， 直 到 其 他 线程 到 达 其 代码 的 某 一 确定 点 。 该 类 需要 使 用 等 待 线程 数 
进行 初始 化 ， 它 实现 了 以 下 两 种 方法 。 


ay, 
ei 


FASO BR PF o 


7 (性 
\ 


a 
E 
E 


‚ak 


・ getDown( ) : 该 方法 用 于 减少 要 等 待 的 线程 数 。 
。await ( ) : 该 方法 挂 起 调用 它 的 线程 ， 直 到 计数 器 达到 0 为 止 。 


在 本 例 中 ， 我 们 使 用 将 在 执行 器 中 执行 的 任务 数 初 始 化 CountDownLatch 类 。 主 线程 为 其 调用 
await() 方法 ， 而 每 个 任务 完成 其 计算 时 调用 getDown( ) 方法 : 


public String classify (Sample example) throws Exception { 


Distance[] distances=new Distance[dataSet.size()]; 
CountDownLatchendController=new CountDownLatch(dataSet.size()); 


int index=0; 
for (Sample localExample : dataset) { 
IndividualDistanceTask task=new IndividualDistanceTask(distances, 


index, localExample, example, endController); 
executor .execute(task); 
index++; 


endController.await(); 


um 
o 


‘kia, 根 据 para11e1Sort 属性 的 值 ， 调 用 Arrays .sort( ) 方 法 或 者 Arrays .para11e1Sort( ) 
方法 。 


if (parallelSort) { 
Arrays.parallelSort(distances) ; 
} else { 
Arrays.sort(distances); 


最 后 ， 计 算 指 派 给 输入 范例 的 标签 。 这 一 部 分 代码 与 串 行 版 本 相同 。 


KnnClassifierParallelIndividual 类 还 包含 一 个 关闭 


Sr 


shutdown() 方法 。 如 果 你 不 调用 该 方法 ， 应 用 程序 就 不 会 结束 ， 因 为 执行 器 


丸 行 器 的 方法 ， 该 方法 调 
所 创建 的 线程 仍然 存 


E HALE bE - EEZ WEES EMTS, Ti 


oH 


不 会 等 待 执行 器 完成 ， 它 会 立即 返回 ， 如 下 所 示 。 


J 


新 提交 的 任务 会 被 拒绝 。 该 方 流 


并 


} 


public void destroy() { 
executor.shutdown(); 


E) 


站 的 距离 作为 一 项 并 发 人 


rH 


15) 、 训 练 数据 集 


IndividualDistanceTask 类 实现 了 Runnable 接口 ， 因 此 可 以 在 执行 


数 如 下 : 


本 例 的 关键 环节 就 是 IndividualDistanceTask 类 。 该 类 将 输入 范例 与 训练 数 
E 务 计算 。 它 存放 了 一 个 完整 的 距离 数组 (我 们 将 只 确立 其 中 一 个 位 
范例 的 索引 、 这 两 个 范例 和 用 于 控制 任务 结束 的 CountD 


Ba 


ownLatch 対象 
EA o Z HI 


据 集中 某 个 范例 之 


public class IndividualDistanceTask implements Runnable { 


private final Distance[] distances; 
private final int index; 

private final Sample localExample; 

private final Sample example; 

private final CountDownLatchendController; 


localExample, Sample example, 
CountDownLatchendController) { 


this.distances=distances; 
this.index=index; 
this.localExample=localExample; 
this.example=example; 
this.endController=endController; 


public IndividualDistanceTask(Distance[] distances, int index, Sample 


uno 方法 采用 前 


将 结果 存放 在 dis 


É = AR euc Tide andi stancetatculator 类 计 


tances 数 2 


的 对 应 位 ; 


了 两 个 范例 之 间 的 昌 


@Override 
public void run() 


} 


{ 


distances[index] = new Distance(); 
distances[index].setIndex(index); 
distances[index].setDistance(EuclideanDistanceCalculator 


.Calculate(localExample, example)); 


endController.countDown(); 


és WER, 


尽管 所 有 任务 共享 distances 数 组 ， 但 是 我 们 并 不 需 


个 任务 ANB 会 修 改 


该 数组 的 不 同位 置 。 


323 - 最 近郊 算法 : 粗 粒 度 并 发 版 本 
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任何 同步 机 制 ， 因 为 每 


LA oi ee 定 问题 : 执行 的 任务 太 多 了 “。 想 想 看 ， 在 这 个 例子 中 ， 
有 29 000 多 个 训练 范例 ， 对 于 每 个 竺 分 类 范例 需要 启动 29 000 个 任务 。 男 一 方面 ， 我 们 已 经 创建 的 执 
ARTES lendo 。 因 此 ， 另 一 个 解决 方案 是 仅 启 动 numThreads “MES, F 

将 训练 数据 集 划分 为 numThreads 个 组 。 比 如 ， 使 用 一 个 四 核 处 理 器 执行 这 个 例子 ， 这 样 每 个 任务 
将 要 计算 输入 范例 与 大 约 7000 个 训练 范例 之 间 的 距离 。 


我 们 已 在 KnnClassifierParallelGroup 类 中 实现 了 该 解决 方案 。 它 与 
KnnClassifierParallelIndividual 类 非常 相似 ， 但 是 存在 两 个 主要 区 别 。 首 先是 
classify() 方法 的 初始 化 部 分 。 现 在 ， 我 们 只 有 numThreads 个 任务 ， 而 且 必 须 将 训练 数据 集 划 
分 为 numThreads 个 子 集 。 
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public String classify(Sample example) throws Exception { 


Distance distances[] = new Distance[dataSet.size()]; 
CountDownLatchendController = new CountDownLatch(numThreads ) ; 


int length = dataSet.size() / numThreads; 
intstartIndex = 0, endIndex = length; 


for (int i = 0; i <numThreads; i++) { 
GroupDistanceTask task = new GroupDistanceTask(distances, startIndex, 
endIndex, dataSet, example, endController); 
startIndex = endIndex; 
if (i <numThreads - 2) { 
endIndex = endIndex + length; 
} else { 
endIndex = dataSet.size(); 


} 


executor.execute(task); 


endController.await(); 


E 


TAE MESA AE length Ft > Ar, NETTER TT R | A 
RRI o Ma TEEN, SORT GE engh ME ART ARES TR SET 
言 ， 最 后 的 索引 值 即 为 数据 集 的 大 小 。 
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让 次 ， 该 类 使 用 GroupDistanceTask 代替 了 Tndividua1DistanceTask 。 这 两 个 类 之 间 的 主要 
区 别 在 于 前 一 个 类 处 理 的 是 训练 数据 集 的 一 个 子 集 ， 因 此 它 存放 的 是 整个 训练 数据 集 及 其 要 处 理 的 这 
部 分 数据 集 的 起 始 位 置 和 终止 位 置 。 


public class GroupDistanceTask implements Runnable { 
private final Distance[] distances; 
private final intstartIndex, endIndex; 
private final Example example; 
private final List<? extends Example>dataSet; 
private final CountDownLatchendController; 


public GroupDistanceTask(Distance[] distances, intstartIndex, 

intendIndex, List<? extends Example>dataSet, 
Example example, CountDownLatchendController) { 

this.distances = distances; 

this.startIndex = startIndex; 

this.endIndex = endIndex; 

this.example = example; 

this.dataSet = dataset; 

this.endController = endController; 


run( ) 方法 处 理 的 是 一 个 范例 集合 ， 而 不 仅仅 是 一 个 范例 。 


public void run() 
Sample localExample=dataSet.get (index); 


distances[index] = new Distance(); 
distances[index].setIndex(index); 


endController.countDown(); 


for (int index = startIndex; index <endIndex; index++) { 


distances[index].setDistance(EuclideanDistanceCalculator 
.calculate(localExample, example)); 


3.2.4 ”对比 解决 方案 


对 比 一 下 已 经 实现 的 k -最 近邻 算法 的 不 同 版 本 。 我 们 有 如 下 五 个 不 同 版 本 。 
。 串 行 版 本 。 
。 采 用 串 行 排序 的 细 粒 度 并 发 版 本 。 
。 采 用 并 发 排序 的 细 粒 度 并 发 版 本 。 
。 采 用 串 行 排序 的 粗 粒度 并 发 版 本 。 
。 采 用 并 发 排序 的 粗 粒度 并 发 版 本 。 


为 了 测试 该 算法 ， 从 Bank Marketing 数 据 集 中 选取 了 2059 个 测试 实例 。 


BA 


Ek 取 值 》 


10、30 和 50 的 


情况 下 采用 上 述 五 个 版 本 的 算法 对 上 壕 所 有 实例 进 生 分 类 | 并 且 度 量 各 个 版 本 的 执行 时 间 。 我 们 采用 
JMH 框 架 执 行 上 述 各 例 ， 该 框架 支持 用 Java 实 现 微型 基准 测试 。 使 用 一 个 面向 基准 测试 的 框架 是 一 种 
比較 好 的 解決 方 案 , 使用 其 中 的 currentTimeMi11is( ) 方法 或 者 nanoTime( ) 方法 就 可 以 测量 时 
间 “。 我 们 在 两 套 架构 上 分 别 将 其 执行 10 次 。 
。 一 台 计 算 机 配置 了 Intel Core i5-5300 CPU > Windows 7 操作 系统 和 16GB 的 RAM。 该 处 理 器 有 两 个 
核 ， 每 个 核 可 以 执行 两 个 线程 ， 这 样 我 们 就 有 了 四 个 并 行 线程 。 
. 4 台 计 算 机 配置 了 AMD A8-640 CPU ` Windows 10 操 作 系统 和 8GB 的 RAM 。 该 处 理 器 有 四 个 
Yo 
执行 时 间 如 下 所 示 (単位 : 秒 ) < 
算法 k AMD Intel 
10 309.99 126.26 
串 行 30 310.22 125.65 
50 309.59 126.48 
10 153.19 89.97 
细 粒 度 串 行 排序 30 152.85 90.61 
50 155.01 89.97 
10 120.10 76.81 
细 粒 度 并 发 排序 30 122.00 76.69 
50 125.61 73.33 
10 138.28 77.99 
粗 粒度 串 行 排序 30 137.54 78.69 
50 137.85 78.25 
10 107.62 66.48 
粗 粒 度 并 发 排序 30 107.36 65.93 
50 106.61 66.22 


我 们 可 以 得 出 以 下 结论 。 


参数 值 K (10 ヽ 30 和 50) 的 选择 对 算法 的 执行 时 间 并 无 影响 。 对 于 这 三 个 取 值 来 说 ， 五 个 版 本 在 
两 套 架构 上 都 表现 出 相似 的 结果 。 
。 正如 我 们 所 期 望 的 那样 ， 使 用 Arrays. parallelSort() 方法 进行 并 发 排序 ， 该 算法 的 细 粒 度 
并 发 版 和 粗 粒 度 并 发 版 在 性 能 上 都 会 有 显著 提升 。 
省 发 版 本 都 提升 了 应 用 程序 的 性 能 ， 但 是 采用 串 行 或 并 行 排序 的 粗 粒度 版 本 其 性 能 实现 了 较 大 


忆 此 ， 如 果 与 串 行 版 本 比较 求 取 加 速 比 ， 那 么 该 算法 的 最 好 版 本 是 采用 并 行 排序 的 粗 粒 度 解决 方案 。 


Teria 99.218 8 
Teoncurrent 93.255 


这 个 例子 说 明 ， 选 择 一 个 良好 的 并 发 解决 方案 可 以 带 来 巨大 的 性 能 提升 ， 反 之 则 相反 。 
33 第 二 介 例 子 . 客户 端 /服务 器 环境 下 的 并 发 处 理 


客户 端 /服务 器 模型 是 一 种 软件 架构 ， 基 于 这 种 模型 的 应 用 程序 被 划分 为 两 个 部 分 ;提供 资源 (数 
据 、 操 作 、 打 印 机 、 存 储 等 的 服务 器 端 和 使 用 服务 器 端 所 提 代 t 的 资源 的 客户 端 ， 传统 上 ， 这 种 架构 
于 企业 领域 ,但 是 随 着 互联 网 的 蓬勃 发 展 ， 至 今 它 仍然 是 一 个 很 现实 的 主题 。 你 也 可 以 将 Web 应 用 
程序 视 为 客 户 端 /服务 器 应 程序 ， 其 服务 器 部 分 就 是 在 Web 服务 器 中 执行 的 应 用 程序 后 台 部 分 ， 而 
Web 浏 览 器 则 执行 应 用 程序 客户 端 部 分 。SOA (service-oriented architecture， 面 向 服务 的 架构 ) 是 客 
户 端 /服务 器 架构 的 另 一 个 例子 ， 其 中 公开 的 Web 服 务 即 为 其 服务 器 部 分 ， 而 使 用 这 些 服 务 的 各 种 客户 


端 则 是 客户 端 部 分 。 


在 客户 端 /服务 器 环境 中 ， 我 们 通常 都 有 一 台 服 务 器 和 很 多 使 用 该 服务 器 所 提供 服务 的 客户 端 ， 因 此 
设计 这 样 的 系统 时 ， 服 务 器 的 性 能 方面 非常 重要 。 


在 本 市 ， 我 们 将 实现 一 个 简单 的 客户 端 /服务 器 应 用 程序 。 它 将 对 某 银行 发 布 的 发 展 指数 进行 数据 搜 


o 


该 服务 器 主要 有 以 下 特点 。 


。 客户 端 与 服务 器 都 使 用 套 接 字 连 接 。 
。 客户 端 将 以 字符 串 形 ， 而 服务 器 将 用 另 一 个 字符 串 返 回 结果 e 
。 服务 器 可 以 响应 三 种 不 同 查询 。 
o Query: 这 种 查询 的 格式 是 q;codCountry;codIndicator;year , 其 中 codCountry 
是 国家 代码 ，codIndicator 是 指数 代码 ， 而 year 是 一 个 可 选 参数 ， 表 示 你 想 要 查询 的 年 
份 。 服 务 器 的 响应 信息 将 以 单个 字符 串 的 形式 返回 。 
o Report: 这 种 查询 的 格式 是 r ;codIndicator ， 其 中 codIndicator 是 你 要 制 表 的 指数 
代码 。 服 务 器 将 以 单个 字符 串 形式 响应 各 年 份 所 有 国家 该 指数 的 平均 值 。 
o Stop: 这 种 查询 的 格式 是 z ; 接收 到 该 命令 时 ， 服 务 器 将 停止 执行 。 
。 在 其 他 情况 下 ， 服 务 器 将 返回 个 错误 消息 o 
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与 前 面 的 例子 相同 ， 下 文 将 展示 如 何 实现 该 客户 端 /服务 器 应 用 程序 的 串 行 版 本 。 然 后， 将 展示 如 何 
使 用 # (raia 现 其 并 发 版 本 。 最 后 ， 我 们 将 比较 这 两 种 解决 方案 ， 以 审视 在 这 种 情况 下 使 用 并 发 处 理 


的 优点 


331 客户 端 /服务 器 : 串 行 版 
服务 器 应 用 程序 的 串 行 版 本 主要 有 三 个 部 件 。 
。DAO (data access object, OS 部 件 ， 负 责 访问 数据 并 且 获 取 查 询 结果 。 


。 命令 部 件 ， 由 各 种 查询 的 命令 组 成 
。 服务 器 部 件 ， 接 收 查 询 ， 调 对 应 命令 ， 并 且 向 客户 端 返回 结果 。 


qu 


EI TR FEIKE o 
a. DAO 部 件 

正如 我 们 前 面 提 到 的 ， 服 务 器 将 针对 发 展 指数 进行 数据 搜索 。 该 数据 以 CSV 文 件 存放 。 该 应 用 程 
序 中 的 DAO 组 件 将 整个 文件 加 载 到 内 存 的 一 个 List 对 象 中 。 它 为 涉及 的 每 个 查询 都 实现 一 个 方 
法 ， 而 这 些 方法 通过 搜索 该 列表 查找 数据 。 
在 此 我 们 不 介绍 这 个 类 的 代码 ， 因 为 很 容易 实现 ， 而 且 它 也 不 是 本 书 所 要 讲述 的 重点 内 容 。 
b. 命令 部 件 


命令 部 件 是 DAO 部 件 和 服务 器 部 件 之 间 的 中 介 。 我 们 实现 了 一 个 基本 抽象 类 command ， 它 是 所 
命令 的 基 类 。 


public abstract class Command { 
protected final String[] command; 


public Command (String [] command) { 
this.command=command; 


} 


public abstract String execute (); 


然后 ， 我 们 为 每 一 个 查询 实现 了 一 条 命令 。 查 询 在 RueryCommand 类 中 实现 ， 其 execute( ) 方 
法 如 下 所 示 : 


public String execute() { 
WDIDAOdao=WDIDAO.getDA0(); 


if (command.length==3) { 
return dao.query(command[1], command[2]); 
} else if (command.length==4) { 
try { 
return dao.query(command[1], command[2], 
Short.parseShort(command[3])); 
} catch (Exception e) て 
return "ERROR;Bad Command"; 


} else 
return "ERROR;Bad Command"; 


Report 查 询 在 ReportCommand 中 实现 ， 其 execute( ) 方法 如 下 所 示 : 


@Override 
public String execute() { 


WDIDAOdao=WDIDAO.getDAO(); 
return dao.report(command[1]); 


Stop 査 銘 在 StopCommand 类 中 实现 ， 其 execute( ) 方法 如 下 所 示 : 


@Override 

public String execute() { 
return "Server stopped"; 

} 


最 后 ， 出 错 的 情况 通过 ErrorCommand 类 处 到 


Hexecute() 方法 如 下 所 示 : 


ma 


@Override 
public String execute() { 

return "Unknown command: "+command[0]; 
} 


c. 服务 器 部 件 


最 后 ， 服 务 器 部 件 在 SerialServer 类 中 实现 。 首 先 ， 它 通过 调用 getDAO( ) 方法 初始 化 
DAO。 其 主要 目的 是 使 用 DAO 加 载 所 有 数据 。 


public class SerialServer { 


public static void main(String[] args) throws IOException { 
WDIDAOdao = WDIDAO.getDAO(); 
booleanstopServer = false; 
System.out.printin("Initialization completed."); 


try (ServerSocketserverSocket = new ServerSocket(Constants 
.SERIAL PORT)) { 


此 后 ， 我 们 需要 执行 一 个 循环 ， 直 到 该 服务 器 接收 到 一 个 Stop 查 询 为 止 。 该 循环 执行 以 下 


。 接收 来 自 客户 端的 查询 。 
该 查询 的 要 素 。 


Y 


结果 o 


这 四 个 步 又 的 实现 如 下 述 代码 片段 所 示 : 


do { 
try (Socket clientSocket = serverSocket.accept(); 
Printwriter out = new PrintWriter(clientSocket.getOutputStream(), 
true); 

BufferedReader in = new BufferedReader(new InputStreamReader 
(clientSocket.getInputStream()));) て 

String line = in.readLine(); 

Command command; 


String[] commandData = line.split(";"); 
System.out.printin("Command: " + commandData[0]); 


switch (commandData[0]) { 
Case "qr: 
System.out.printin("Query"); 


break; 
case "r"; 
System.out.printin("Report"); 


break; 
case "z"; 
System.out.println("Stop"); 


stopServer = true; 
break; 

default: 
System.out.println("Error"); 


String response = command.execute(); 
System.out.printin(response); 

} catch (IOException e) { 
e.printStackTrace(); 


} 
} while (!stopServer); 


3.3.2 ”客户 端 /服务 器 : 并 行 版 本 


command = new QueryCommand(commandData ) / 


command = new ReportCommand(commandData ) / 


command = new StopCommand( commandData ) ; 


command = new ErrorCommand(commandData ) ; 


在 串 行 版 本 中 ， 服 务 器 部 件 存在 一 个 非常 严重 的 缺陷 。 当 处 理 一 个 查询 时 并 不 能 兼顾 其 他 查询 。 如 果 
响应 每 个 查询 请 求 或 特定 请 求 需要 耗费 大 量 时 间 ， 那 么 服务 器 的 性 能 就 会 很 低 。 
我 们 可 以 使 用 并 发 处 理 获得 更 好 的 性 能 。 如 果 服 务 器 收 到 请 求 后 创建 了 一 个 线程 ， 它 可 以 将 该 查询 的 
所 有 处 理 委 托 该 线程 ， 并 开始 处 理 新 的 请 求 。 这 种 方法 也 存在 一 些 问题 。 如 果 我 们 接收 到 了 大 量 查 
询 ， 则 会 导致 系统 因 创建 太 多 线程 而 不 堪 重 负 。 但 是 如 果 我 们 使 用 线程 数 固定 的 执行 器 ， 就 可 以 控 钉 
服务 器 所 使 用 的 资源 ， 并 获得 比 串 行 版 本 更 好 的 性 能 * 
为 了 使 用 执行 器 将 串 行 版 服务 器 部 件 转换 为 并 发 版 ， 必 须 修 改 服 务 器 端 。DAO 部 件 是 相同 的 ， 虽 然 
我 们 也 已 经 更 改 了 实现 命令 部 件 的 类 名 ， 但 是 实现 过 程 几乎 相同 。 只 有 Stop 查 询 发 生 了 改变 ， 因 为 现 
在 它 有 了 更 多 职能 。 下 面 我 们 了 解 一 下 并 发 版 服务 器 部 件 的 实现 细节 o 
a. 服务 器 部 件 
并 发 服务 器 部 件 EConcurrentServer 部 件 中 实现 。 我 们 为 其 加 入 了 两 项 串 行 服务 器 不 具备 的 
要 素 : 在 Para11e1Cache 类 中 实现 的 缓存 系统 和 在 Logger 类 中 实现 的 日 志 系 统 。 首 先 ， 并 发 
服务 器 调用 getDAO( ) 方法 初始 化 DAO 部 分 。 主 要 目标 是 DAO 加 载 所 有 数据 并 且 使 用 
Executors KinewFixedThreadPool() 方法 创建 一 个 ThreadPoolExecutor 対象 该 方 
法 接收 的 是 我 们 要 在 服务 器 中 使 用 的 最 大 工作 线程 数 。 执 行 器 绝 不 会 超过 该 工作 线程 数 。 要 获得 
工作 线程 数 ， 我 们 要 使 用 Runtime een ) 方法 获取 系统 的 核 数 。 


public class ConcurrentServer { 


static 
static 


private 
private 
private static 
private static 
public static void main(String[] args) { 
serverSocket=null; 
WDIDAOdao=WDIDAO. getDAO( ); 


ParallelCache cache; 
ServerSocketserverSocket; 


cache=new ParallelCache(); 
Logger .initializeLog(); 


ThreadPoolExecutor executor; 


volatileboolean stopped=false; 


executor=(ThreadPoolExecutor) Executors.newFixedThreadPool 
(Runtime.getRuntime().availableProcessors()); 


System.out.printin("Initialization completed."); 


布尔 变量 stopped 被 声明 为 volatile 型 ， 因 为 另 一 个 线程 可 以 更 改 它 。 当 stopped 变量 被 另 
一 个 线程 设置 为 true Et, volatile 关键 字 确 保 了 这 一 改变 在 主 方法 中 可 见 。 如 果 没 有 
volatile 关键 字 ， 由 于 CPU 缓存 或 者 编译 优化 方面 的 原因 ， 这 样 的 改变 则 不 可 见 。 然 后 ， 我 们 
初始 化 ServerSocket 以 监听 请 求 : 


serverSocket = new ServerSocket (Constants.CONCURRENT PORT); 


我 休 不能 使用 一 介 try -with-resources 语句 管理 服务 器 socket 。 Gr 命令 后 需 
关闭 服务 器 ， 但 是 服务 器 正在 等 待 serverSocket 対象 的 accept( ) FH: ASIA 使 服务 器 
丢弃 该 方法 ， 需 要 显 式 关闭 服务 器 (我们 将 在 shutdown( ) 方法 中 执行 这 一 操作 ) , 因 此 不能 
使 用 try-with-resources 语句 关闭 socket 。 


此 后 ， 我 们 会 执行 一 个 循环 ， 直 到 服务 器 接收 到 一 个 Stop 查 询 为 止 。 该 循环 执行 如 下 三 个 步骤 。 


。 从 客户 端 接收 一 个 查询 。 
+ 创建 一 个 任务 处 理 该 查询 。 
。 将 该 任务 发 送 给 执行 器 。 


下 面 的 代码 片段 展示 了 这 三 个 步骤 : 


do { 
try { 
Socket clientSocket = serverSocket.accept(); 
RequestTask task = new RequestTask(clientSocket); 
executor .execute(task); 
} catch (IOException e) { 
e.printStackTrace(); 


} 
} while (!stopped); 


最 后 ， 一 旦 服务 器 完成 了 执行 (离开 了 该 循环 ) ， 则 必须 使 用 awaitTermination( ) 方法 结束 
该 执行 器 。 该 执行 器 完成 execution( ) 方法 前 ， 该 方法 将 一 直 阻塞 主线 程 。 然 后 ， 关 闭 缓存 系 
统 ， 等 待 一 条 表明 服务 器 执行 完毕 的 消息 ， 如 下 所 示 : 


executor.awaitTermination(1, TimeUnit.DAYS); 
System.out.printin("Shutting down cache"); 
cache.shutdown(); 

System.out.println("Cache ok"); 


System.out.println("Main server thread ended"); 


我 们 已 经 额外 加 入 了 两 种 方法 : zgetExecutor() 方法 ， 它 返回 了 用 于 执行 并 发 任务 的 
ThreadPoo1Executor 对 象 ， 另 一 种 是 shutdown( ) 方法 ， 它 用 于 按照 顺序 结束 服务 器 的 执 


行 器 ， 该 方法 调用 了 执行 器 的 shutdown( ) 方法 并 且 关 闭 ServerSocket 。 


public static void shutdown() { 

stopped = true; 

System,out,println("Shutting down the server..."); 

System.out.printin("Sshutting down executor"); 

executor.shutdown(); 

System.out .print1n( "Executor ok"); 

System.out.printin("Closing socket"); 

try { 
serverSocket.close(); 
System.out.printin("Socket ok"); 

} catch (IOException e) { 
e.printStackTrace(); 


System.out.printin("Sshutting down logger"); 
Logger.sendMessage("Shutting down the logger"); 
Logger.shutdown(); 

System.out.printin("Logger ok"); 


在 并 发 服务 器 中 有 一 个 关键 部 件 : 处 理 每 个 客户 端 请 求 的 RequestTask 类 。 该 类 


Runnable 接口 ， 这 样 它 就 可 以 以 并 发 方式 在 执行 器 中 执行 。 其 构造 函数 将 接收 
信 的 Socket 参数 。 


public class RequestTask implements Runnable { 
private final Socket clientSocket; 


public RequestTask(Socket clientSocket) { 
this.clientSocket = clientSocket; 


} 


SE 


向 应 每 个 请 求 时 ，run( ) DEBE DNS S PARA BREA > 


。 解析 并 分 割 该 查询 的 要 素 。 


Im 
zu 
o 


代码 片段 如 下 所 示 : 


public void run() { 


try (PrintWriter out = new PrintWriter(clientSocket 
.getOutputStream(), true); 
BufferedReader in = new BufferedReader(new InputStreamReader 
(clientSocket.getInputStream()));) { 
String line = in.readLine(); 
Logger .sendMessage(line); 
ParallelCache cache = ConcurrentServer.getCache(); 
String ret = cache.get(line); 


if (ret == null) { 
Command command; 
String[] commandData = line.split(";"); 
System.out.printin("Command: " + commandData[0]); 
switch (commandData[0]) { 
case "q": 


vv vw 


System.err.println("Query"); 
command = new ConcurrentQueryCommand(commandData); 
break; 
case "r": 
System.err.println("Report"); 
command = new ConcurrentReportCommand(commandData); 
break; 
case "s": 
System.err.println("Status"); 
command = new ConcurrentStatusCommand(commandData); 
break; 
case "z": 
System.err.println("Stop"); 
command = new ConcurrentStopCommand(commandData); 
break; 
default: 
System.err.printin("Error"); 
command = new ConcurrentErrorCommand(commandData); 
break; 
} 
ret = command.execute(); 
if (command.isCacheable()) { 
cache.put(line, ret); 


else { 


Logger.sendMessage("Command "+line+" was found in the cache"); 


System.out.println(ret); 

catch (Exception e) { 

e.printStackTrace(); 

finally { 

try { 
clientSocket.close(); 

} catch (IOException e) { 
e.printStackTrace(); 


b. 命令 部 件 


正如 前 面 的 代码 片段 所 示 ， 我 们 重 命名 了 命令 部 件 中 的 所 有 类 。 除 了 


ConcurrentStopCommand 类 之 外 ， 其 他 实现 过 程 都 相同 。 现 在 ， 命 令 部 件 调用 


ConcurrentServer 美的 shutdown( ) 方法 按照 顺序 结束 服务 器 的 执行 。execute( ) 方法 的 
源 代码 如 下 : 


} 


@Override 

public String execute() { 
ConcurrentServer.shutdown(); 
return "Server stopped"; 


同样， 


命令 的 结果 ， 则 该 方法 返回 true , 否 川 返 回 false 。 


3.3.3 ”额外 的 并 发 服务 器 组 件 


我 们 


已 经 实现 了 一 些 额 外 的 并 发 服务 器 组 件 ， 返 回 服务 器 状态 信息 的 新 命 


现在 Command 类 包含 了 一 个 新 的 Boolean 型 的 jscacheable( ) 方 法 , UNE 


存放 了 


EX ES TH 


以 便 在 重复 请 求 时 节省 时 间 的 缓存 系统 ， 以 及 记录 错误 信息 和 调试 信 息 的 


DÁ 统 
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召 这 些 组 件 o 
i. 状态 命令 


先 ， 我 们 有 了 一 种 新 的 查询 。 它 有 自己 的 格式 ，3 ijtConcurrentStatusCommand 
类 处理 。 该 类 可 获取 服务 器 所 使 用 的 ThreadPoolExecutor 対象 , 获取 该 执行 器 的 相 
关 状 态 信 息 : 


=. 


public class ConcurrentStatusCommand extends Command { 
public ConcurrentStatusCommand (String[] command) { 
super (command); 
setCacheable(false); 


@Override 
public String execute() 
StringBuildersb=new StringBuilder(); 
ThreadPoolExecutor executor=ConcurrentServer.getExecutor(); 
Logger.sendMessage(sb.toString()); 
return sb.toString(); 


可 以 从 该 服务 器 获取 的 信息 如 下 。 


e getActiveCount(): 该 方法 返回 执行 并 发 任务 的 大 致 任务 数 。 线 程 池 中 可 能 有 更 多 
线程 ， 但 是 它们 都 是 空闲 的 。 
e getMaximumPoolSize(): 该 方法 返回 了 执行 器 可 拥有 的 工作 线程 的 最 大 类 
e getCorePoolSize(): 该 方法 返回 了 执行 器 有 的 核心 作 线程 数目 。 这 
定 了 线程 池 中 线程 数 的 最 小 值 。 
getPoo1Size( ) : 该 方法 返回 了 当前 线程 池 中 的 线程 数 。 
getLargestPoo1Size( ) : 该 方法 返回 了 线程 池 在 执行 期 间 的 最 大 线程 数 。 
getCompletedTaskCount(): 该 方法 返回 了 执行 器 已 经 执行 的 任务 数 。 
getTaskCount( ) : 该 方法 返回 了 已 预定 执行 任务 的 大 致 数目 。 
getQueue().size(): 该 方法 返回 了 在 任务 队列 中 等 待 的 任务 数 。 


丸 为 使 用 Executor 美的 newFixedThreadPoo1( ) 方法 创建 了 执行 器 ， 
芷 线程 数 和 核心 工作 线程 数 相同 。 


ii. 缓存 系统 


并 行 服 务 器 中 带 有 一 个 缓存 系统 ， 其 作用 是 避免 重复 搜索 那些 近期 已 经 进行 过 的 数据 。 该 组 
存 系统 丰 月 如 a 7 


a 


那么 它 的 最 大 工 


。CacheItem 类 : 该 类 用 于 描述 在 缓存 中 存放 的 每 个 元 素 ， 而 且 它 有 如 下 四 个 属性 。 
o 在 缓存 中 存储 的 命令 。 我 们 将 Query 和 Report 命令 存放 在 缓存 之 中 o 
o 该 命 令 所 产生 的 响应 o 
o 缓存 中 某 一 项 的 创建 日 期 。 
o 该 项 在 缓存 中 的 最 后 访问 时 间 o 
・ CleancacheTask 类 : 如 果 在 缓存 中 存储 所 有 命令 并 从 未 删除 ， 那 么 缓存 的 大 小 就 会 
无 限制 增加 。 为 了 避免 这 种 情况 ， 我 们 还 可 以 创建 一 个 任务 删除 缓存 中 的 元 素 ， 并 将 该 
任务 作为 一 个 Thread 对 象 实现 。 有 如 下 两 种 供 选 方案 。 
o 你 可 以 为 缓存 设 定 最 大 规模 。 如 果 缓 存 中 的 元 素数 大 于 最 大 值 ， 就 可 以 将 那些 近期 


很 少 访问 的 元 素 删 除 o 
尔 可 以 删除 缓存 中 那些 在 


方式 。 


= 


个 预定 时 段 内 未 被 访问 的 元 素 。 我 们 将 要 采用 的 就 是 这 


・ ParallelCache 类 : 该 类 实现 了 在 缓存 中 存储 和 检索 各 元 素 的 操作 。 为 了 在 缓存 中 
存储 数据 ， 我 们 采用 ] ConcurrentHashMap 数据 结构 。 因 为 缓存 由 服务 器 所 有 
我 们 必须 采用 一 种 同步 机 制 保护 对 缓存 的 访问 ， 以 避免 数据 竞争 条 件 。 有 如 


o 我 们 可 以 使 用 一 种 non-synchronized 型 的 数据 结构 (例如 HashMap ) 并 且 加 
入 必要 代码 同步 对 该 数据 结构 的 各 种 访问 ， 例 如 ， 采 用 锁 。 你 也 可 以 使 用 
Collections 类 的 synchronizedMap() 方法 将 一 个 HashMap 转换 为 一 个 
synchronized 型 结构 。 

Hsynchronized 型 的 数据 结构 ， 例 如 Hashtable。 对 于 这 种 情况 ， 我 们 不 会 

成 数据 竞争 条 件 ， 但 是 性 能 会 更 好 。 

发 数据 结构 ， 例 如 ConcurrentHashMap 类 ， 该 类 消除 了 出 现 数据 竞争 条 

的 可 能 性 ， 而 且 该 类 被 优化 用 于 高 并 发 环境 中 。 我 们 将 使 用 

ConcurrentHashMap 类 的 对 象 实现 这 种 方案 。 
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CleanCacheTask 类 的 代码 如 下 : 


public class CleanCacheTask implements Runnable { 
private final ParallelCache cache; 


public CleanCacheTask(ParallelCache cache) て 
this.cache = cache; 


@Override 
public void run() て 
try £ 
while (!Thread.currentThread().interrupted()) { 
TimeUnit.SECONDS.sleep(10); 
cache.cleanCache(); 


} 
} catch (InterruptedException e) { 


} 
} 
} 
该 类 中 有 一 个 ParallelCache 对 象 ， 并 且 每 10 秒 钟 ， 就 会 执行 Parallelcache 实例 的 
cleanCache() 方法 。ParallelCache 类 有 五 种 不 同 的 方法 。 首 先 ， 该 类 的 构造 钞 数 初 
始 化 了 该 缓存 的 元 素 。 它 创建 了 concurrentHashMap 対象 1 动 了 一 个 执行 


CleanCacheTask 类 的 线程 : 


public class ParallelCache { 


private final ConcurrentHashMap<String, Cacheltem> cache; 
private final CleanCacheTask task; 
private final Thread thread; 
public static intMAX_LIVING_TIME_MILLIS = 600_000; 
public ParallelCache() { 

cache=new ConcurrentHashMap<>(); 

task=new CleanCacheTask(this); 

thread=new Thread(task); 

thread.start(); 


nt 


然后 ， 该 类 中 还 有 两 个 方法 可 用 于 存储 和 检索 缓存 中 的 元 素 。 我 们 使 用 put ( ) 方法 将 元 素 
插入 HashMap , 井 使用 get( ) 方 法 在 HashHap 1 检索 元 素 : 


public void put(String command, String response) { 
CacheItem item = new CacheItem(command, response); 
cache. put (command, item); 


public String get (String command) { 
CacheItem item=cache.get (command); 
if (item==null) { 
return null; 


item.setAccessDate(new Date()); 
return item.getResponse(); 


然 后 , CleanCacheTask 类 清理 缓存 的 方法 如 下 : 


public void cleanCache( ) { 
Date revisionDate = new Date(); 
Iterator<Cacheltem> iterator = cache.values().iterator(); 


while (iterator.hasNext( ) ) { 
CacheItem item = terator.next( ) 
if (revisionDate.getTime() - item.getAccessDate().getTime() 
>MAX_LIVING_TIME_MILLIS) { 
iterator.remove(); 


} 
} 
} 
最 后 ， 还 有 一 个 用 于 关闭 缓存 的 方法 ， 该 方法 可 中 断 执行 CleancacheTask 类 的 线程 ， 并 
且 返 回 缓存 中 存储 的 元 素数 。 


public void shutdown() { 
thread.interrupt(); 
} 


public intgetItemCount() { 
return cache.size(); 
} 


ii. 日 志 系 统 


在 本 章 所 有 例子 中 ， 我 们 都 使 用 System.out .print1n( ) 方法 将 信息 反馈 到 控制 台 。 当 
你 实现 的 是 一 个 准 境 中 执行 的 企业 应 用 程序 时 ， 最 好 的 方法 就 是 使 日 志 系 统 记 
录 调 试 信息 和 错误 FA 1094j 是 Java 中 最 受 欢 迎 的 日 志 系 统 。 在 本 例 中 ， 我 们 将 实现 自己 
的 日 志 系 统 ， 该 系统 采用 了 生产 者 /消费 者 并 发 设计 模式 。 使 用 日 志 系 统 的 任务 将 作为 生产 
aut 志 信息 写 入 文件 的 特别 任务 (作为 一 个 线程 执行 ) 将 作为 消费 者 。 该 日 志 系统 的 
组 件 如 
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・ LogTask: 该 类 实现 了 日 志 消费 者 ， 它 可 每 10 秒 钟 读 取 队 列 存储 的 日 志 消 息 并 将 
写 入 文件 。 该 类 通过 一 个 Thread 对 象 来 执行 
* Logger : 这 是 日 志 系 统 的 主 类 。 它 有 个 队列 ， 生产 者 将 存 入 信息 ， 而 消费 者 将 读 取 


这 些 信息 。 它 还 提供 了 一 个 可 将 消息 加 入 队列 的 方法 ， 以 及 一 个 获取 队列 存储 的 所 有 消 
息 并 将 其 写 入 人 磁盘 的 方法 。 


实现 该 队列 ， 与 缓存 系统 相同 ， 我 们 需要 采用 一 种 并 发 数据 
错误 。 我 们 有 如 下 两 个 供 选 方案 。 


id 。 当 队列 为 满 (在 我 们 的 例子 中 ， 队 列 永 不 会 满 ) 或 者 为 空 时 ， 
j 非 阻塞 型 数据 结构 。 如 果 队 列 为 满 或 者 为 空 时 ， 将 会 返回 一 个 特定 值 < 


择 了 一 种 非 阻塞 型 数据 结构 ， 即 ConcurrentLinkedQueue X, EXM T Queue FE 
门 使 用 offer( ) 方法 将 元 素 插入 队列 ， 使 用 po11( ) 方法 从 队列 中 获取 元 素 。 


LogTask 类 的 代码 非常 简 


de 


AN 


吉 构 ， 以 避免 任何 数据 不 一 致 的 
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public class LogTask implements Runnable { 


@Override 
public void run() て 
try £ 
while (Thread.currentThread().interrupted()) £ 
TimeUnit.SECONDS.sleep(10); 
Logger .writeLogs(); 


} catch (InterruptedException e) て 


} 
Logger .writeLogs(); 


该 类 实现 了 Runnable 接口 ， 而 且 在 run( ) 方法 中 ， 每 10 秒 钟 调用 一 次 Logger 美的 
writeLogs() 方法 。 


Logger 类 有 5 个 不 同 的 静态 方法 。 个 静态 代码 块 初始 化 并 启动 执行 LogTask 的 
线程 ， 并 且 该 线程 创建 用 于 存放 日 rE E E REE ee 类 : 


public class Logger { 


private static ConcurrentLinkedQueue<String>logQueue = new 
ConcurrentLinkedQueue<String>(); 


private static Thread thread; 


private static final String LOG FILE = Paths.get("output", 


"server.log").toString(); 
static { 
LogTask task = new LogTask(); 
thread = new Thread(task); 


} 


Al, Logger 类 中 含有 一 种 sendMessage( ) 方法 ， 该 方法 接收 一 个 字符 串 作 为 参数 
将 该 消息 存放 在 队列 之 中 。 该 方法 使 用 offer( ) 方法 存放 消息 : 


public static void sendMessage(String message) { 
logQueue. offer (new Date()+": "+message); 


Logger 类 中 的 关键 方法 是 writeLogs( ) 类 。 该 方法 使 用 ConcurrentLinkedQueue É 
的 po11( ) 方法 获取 并 删除 队列 中 存储 的 所 有 日 志 消 息 ， 并 将 它们 写 入 文件 。 


ar 


public static void writeLogs() { 
String message; 
Path path = Paths.get(LOG_FILE); 
try (Bufferedwriterfilewriter = Files.newBufferedwriter(path, 
StandardOpenOption. CREATE, 
StandardOpenOption.APPEND)) { 
while ((message = logQueue.poll()) != null) { 
filewriter.write(new Date()+": "+message); 
filewriter.newLine(); 


} 
} catch (IOException e) { 
e.printStackTrace(); 


最 后 还 有 两 个 方法 : 一 个 用 于 删 减 日 志文 件 ， 另 一 个 用 于 结束 日 志 系 统 的 执行 器 ， 该 方法 会 
THVT LogTask 的 线程 。 


public static void initializeLog() { 
Path path = Paths.get(LOG_FILE); 
if (Files.exists(path)) { 
try (OutputStream out = Files.newOutputStream(path, 
StandardOpenOption.TRUNCATE_EXISTING)) { 
} catch (IOException e) { 
e.printStackTrace(); 


thread.start(); 


public static void shutdown( ) { 
thread.interrupt(); 


3.3.4 对 比 两 种 解决 方案 


现在 ， 测 试 一 下 串 行 服务 器 和 并 发 服务 器 ， 观 察 哪 种 解决 方案 会 使 服务 器 性 能 更 好 。 我 们 实 

现 了 四 个 类 进行 自动 测试 ， 它 们 可 以 向 服务 器 发 出 查询 。 这 些 类 如 下 所 示 。 
e SerialClient: 该 类 实现 了 一 个 可 用 的 串 行 服务 器 客户 端 。 该 客户 端 产 生 了 9 个 使 用 
Quer y 消息 的 请 求 和 一 个 使 用 Report 消息 的 查询 。 该 客户 端 将 重复 该 过 程 10 次 ， 这 样 
就 会 请 求 90 次 Query 查 询 和 10 次 Report 查 询 。 

・ MultipleSerialClients: 该 类 模拟 了 同时 存在 多 个 客户 端的 情况 。 对 于 这 种 情 
形 ， 我 们 为 每 个 Serialclient 创建 一 个 线程 ， 并 且 同 时 运行 这 些 客户 端 以 查看 服务 
器 的 性 能 。 我 们 测试 了 1 到 5 个 并 发 客户 端 。 
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。newSingleThreadExecutor() : 该 方法 创建 了 一 个 仅 使 用 
ThreadPoolExecutor 対象 发 送 给 执行 器 的 任务 会 存储 在 一 个 队列 中 
线程 可 以 执行 它们 为 止 。 

类 额外 提供 了 如 下 几 种 方法 。 


o await(long timeout, TimeUnit unit): 该 方法 将 


e CountDownLatch 


数 器 数值 为 0 并 超过 参数 中 指定 的 时 间 为 止 。 REN, 则 该 方法 返回 
该 方法 返回 内 部 计数 器 的 实际 值 


Java 中 有 两 种 类 型 的 并 发 数据 结构 。 


o getCount(): 


- 阻塞 型 数据 结构 ， 当 你 调用 某 个 方法 但 是 类 库 无 法 执行 该 项 操作 时 (例如 ， 你 i 
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作 线 程 的 


到 该 工作 


等 待 ， 直 到 内 部 计 


或 者 为 满 ) ， 该 方法 会 


返回 一 个 等 定 值 或 抛 出 一 个 异常 。 


为 的 数据 结构 ， 也 有 仅 实 现 其 中 一 种 行为 的 
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图 获 


因为 结构 为 空 


数据 结构 。 通 常 ， 阻 


a 


义 并 不 会 和 


实现 阻塞 型 方 


实现 阻塞 型 操作 的 方法 如 下 。 
。put()、putFirst()、putLast(): 这 些 方法 将 一 个 元 素 插入 数据 结构 。 如 果 该 


实现 非 阻塞 型 操作 的 方法 如 


e add() > addFirst() 
数据 结构 已 满 ， 则 会 


数据 结构 已 满 ， 则 会 阻塞 该 线程 ， 直 到 出 现 空间 为 止 。 
e take() > takeFirst() ヽ takeLast( ) : 这 些 方法 返 世 


元 素 。 如 果 该 数据 结构 为 空 ， 则 会 阻塞 该 线程 直到 其 中 有 元 


PIPA TEA > HUA 
IllegalStateException 异常 。 
element()、getFirst()“、getLast(): 这 些 方法 将 返回 但 是 
的 一 个 元 素 。 如 果 该 数据 结构 为 空 ， 则 会 抛 出 一 个 ILLlegalSta 
e offer() `offerFirst() `offerLast(): 这 些 方法 可 以 ; 


dba 


vaddLast(): ALTAR ILHA 
出 一 介 エ 11ega1StateException 异常 。 
e remove( ) > removeFirst() ヽ removeLast( ) : 这 些 方法 将 返回 


该 结构 为 空 ， 则 这 些 方法 将 抛 出 一 个 


AKIE ° 


并 且 删 除数 据 结 构 中 


的 一 个 


入 数据 结构 。 如 有 果 该 


构 。 如 果 该 结构 已 满 ， 则 返回 一 个 Boolean 値 false 。 
e poll() »pollFirst() > Bela): 这 些 方法 将 返 


个 元 素 。 如 果 该 结构 为 空 ， 则 返回 nullf 
。 Deek( ) > peekFirst() eek: ET BE 
一 个 元 素 。 如 果 该 数据 结构 为 空 ， 则 返回 null 值 


不 删除 数据 


且 删 除数 据 结 


吉 构 中 
teException 异常 。 
$ TT 


回 并 且 删 除数 据 结构 


入 数据 结 


中 的 


第 11 章 将 更 加 详细 地 讲述 并 发 数据 结构 。 


但 是 并 不 删除 数据 结构 中 的 


3.4 小 

在 简单 的 并 发 应 用 程序 中 ， 本 章 使 用 Runnable 接 和 Thread 类 执行 并 发 任务 。 我 们 创建 
和 管理 这 些 线程 并 且 控制 其 执行 。 但 是 在 大 型 并 发 应 用 程序 中 ， 不 能 采用 这 种 方式 ， 因 为 它 
会 导致 很 多 问题 。 在 这 种 情况 下 ， Javai RABISTA ER REDET AERE 
本 特征 及 其 构成 组 件 。 首 先 ， 我 们 探讨 了 Executor 接口 定义 了 将 Runnable 任务 发 送 
给 执行 器 的 基本 方法 。 该 接口 有 人 ， 该 子 接口 所 包含 的 方法 

可 向 执行 器 发 送 返回 结果 的 任务 (这 些 任务 实现 了 Callable 接口 ， 正 如 第 5 章 即将 讲 到 的 
那样 ) 和 一 个 任务 列表 。 


ThreadPoolExecutor 类 是 这 两 种 接口 的 基本 实现 : 增加 额外 的 方法 以 获取 有 关 执 行 器 状 
态 的 信息 ， 以 及 正在 执行 的 线程 或 任务 的 数量 。 为 该 类 创建 对 象 最 简单 的 方式 是 使 用 
Executors 工具 类 ， 该 类 包含 了 创建 不 同类 型 执行 器 的 方法 。 


我 们 已 经 向 你 展示 了 如 何 使 用 执行 器 ， 并 且 使 用 执行 器 实现 了 两 个 实际 例子 ， 说 明了 如 何 将 
串 行 算法 转换 为 并 发 算法 。 第 一 个 例子 是 K -最 近邻 算法 ， 应 用 于 UCI 机 器 学 习 资源 库 的 Bank 
。 第 二 个 例子 是 客户 端 /服务 器 应 用 程序 ， 用 以 查询 某 银行 发 布 的 发 展 指 


E 


Pica 


在 这 两 个 用 例 中 ， 使 用 执行 器 极 大 地 改善 了 性 能 。 


下 一 章 将 介绍 如 何 采用 执行 器 实现 高 级 技术 。 我 们 将 通过 提高 任务 撤销 的 可 能 性 ， 完 善 客户 
端 /服务 器 应 用 程序 ， 并 且 使 高 优先 级 任务 早 于 低 优先 级 任务 执行 。 我 们 还 将 展示 如 何 实现 
周期 性 执行 的 任务 ， 实 现 一 个 RSS 新 闻 阅 读 器 。 


BAR ”充分 利用 执行 器 


第 3 章 介 绍 了 执行 器 的 基本 特征 ， 将 其 作为 改进 执行 大 量 并 发 任务 的 并 发 应 用 程序 性 能 的 一 
各 方式 。 本 章 将 探究 执行 器 的 高 级 特性 ， 这 些 特性 使 它们 成 为 支持 并 发 应 用 程序 的 强大 工 
本 章 将 讲述 以 下 几 项 内 容 。 


。 执行 器 的 高 级 特性 。 
。 第 一 个 例子 : 高 级 服务 器 应 用 程序 。 
・ 第 二 个 例子 : 执行 周期 性 任务 。 

。 有关 执行 器 的 其 他 信息 。 


4.1 执行 器 的 高 级 特性 


执行 器 是 一 个 类 ， 它 允许 编程 人 员 执行 并 发 任务 而 无 须 担心 线程 的 创建 和 管理 。 编 程 人 员 创 
建 Runnab1e 对 象 并 将 其 发 送 给 执行 器 ， 而 执行 器 创建 和 管理 必要 的 线程 以 执行 这 些 任务 。 
第 3 章 曾 介绍 执行 器 框架 具有 以 下 基本 特征 。 


。 如 何 创建 执行 器 以 及 在 创建 执行 器 时 有 哪些 不 同 选项 。 
。 如 何 将 并 发 任务 发 送 给 执行 器 。 

。 如 何 控制 执行 器 使 用 的 资源 。 
。 在 执行 器 的 内 部 ， 如 何 使 用 一 个 线程 池 优 化 应 用 程序 的 性 能 。 


无 论 如 何 ， 执 行 器 提供 了 很 多 选项 ， 这 使 其 成 为 并 发 应 用 程序 中 的 一 利 
4.1.1 任务 的 撤销 


将 任务 发 送 给 执行 器 之 后 ， 还 可 以 撤销 该 任务 的 执行 。 使 用 submit () 方法 将 Runnable 对 
象 发 送 给 执行 器 时 ， 它 会 返回 Future 接口 的 一 个 实现 。 该 类 允许 你 控制 该 任务 的 执行 。 访 
类 有 cancel ( ) 方法 ， 可 用 于 撤销 任务 的 执行 。 该 方法 接收 一 个 布尔 值 作为 参数 ， 如 果 接 收 
到 的 参数 为 true ， 那 么 执行 器 执行 该 任务 ， 否 则 执行 该 任务 的 线程 会 被 中 断 。 


以 下 便 是 想 要 撤销 的 任务 无 法 被 撤销 的 情形 。 


。 任务 已 经 被 撤销 。 
。 任务 已 经 完成 了 执行 。 

。 任 务 正在 执行 而 提供 给 cancel( ) 方法 的 参数 为 false > 
© 在 API 文 档 中 并 未 说 明 的 其 他 原因 。 


Em 


強大 机 制 o 


cancel() 方法 返回 了 一 个 布尔 值 ， 用 了 
4.1.2 ”任务 执行 调度 


ThreadPoolExecutor 类 是 Executor 接口 和 ExecutorService 接口 的 基本 实现 。 但 
是 Java 并 发 API 为 该 类 提供 了 一 个 扩展 类 ， 以 支持 预定 任务 的 执行 ， 这 就 是 
ScheduledThreadPoolExeuctor 类 。 你 可 以 进行 如 下 操作 。 


生 某 段 延 迟 之 后 执行 某 项 任务 。 
司 期 性 地 执行 某 项 任务 ， 包 括 以 固定 速率 执行 任务 或 者 以 固定 延迟 执行 任务 。 


4.1.3 ” 重 载 执行 器 方法 


执行 器 框架 是 非常 灵活 的 机 制 。 你 可 以 通过 扩展 一 个 已 有 的 类 

(ThreadPoolExecutor 或 者 ScheduledThreadPoo1Executor ) 实现 自 己 的 执行 
器 ， 获 得 想 要 的 行为 。 这 些 类 中 包括 一 些 便于 改变 执行 髓 工作 方式 的 方法 。 如 有 果 你 重 载 ] 
ThreadPoolExecutor 类 ， 就 可 以 重 载 L 下 方法 o 


・ beforeExecute( ) : 该 方法 在 执行 器 中 的 某 一 并 发 任务 执行 之 前 被 调用 。 它 接收 将 
要 执行 的 Runnable 对 象 和 将 要 执行 这 些 对 象 的 Thread 3 对 象 。 该 方法 接收 的 
Runnable 对 象 是 FutureTask 类 的 一 个 实例 ， 而 不 是 使 用 submit( ) 方法 发 送 给 执 

了 器 的 Runnable 对 象 。 

・ afterExecute( ) : 该 方法 在 执行 器 中 的 某 一 并 发 任务 执行 之 后 被 调用 。 它 接收 的 是 

已 执行 的 Runnable 対象 和 一 介 Throwab1e 对 象 ， 该 Throwable 对 象 存 储 了 任务 中 

可 能 抛 出 的 异常 。 与 beforeExecute( ) 方法 相同 ，Runnable 对 象 是 FutureTask 

e 一 个 实例 。 

newTaskFor(): 该 方法 创建 的 任务 将 执行 使 用 Submit( ) 方法 发 送 的 Runnable 对 

Re 该 方法 必须 返回 RunnableFuture 接口 的 一 个 实现 。 默 认 情况 下 ，Open JDK 9 和 

Oracle JDK 9 返回 FutureTask 类 的 一 个 实例 ， 但 是 这 在 今后 的 实现 中 可 能 会 发 生变 

化 。 


如果 が 展 ScheduledThreadPoo1Executor &, (RH DE 
方法 与 面向 预定 任务 的 newTaskFor( ) HERMWIH SCHE 


4.1.4 更改 一 些 初始 化 参数 
你 也 可 以 在 执行 器 创建 之 时 更 改 一 些 参 数 以 改变 其 行为 。 最 常用 的 一 些 参 数 如 下 所 示 。 


。BlockingQueue<Runnable> : 每 个 执行 器 均 使 用 一 个 内 部 的 BlockingQueue 存储 
等 待 执 行 的 任务 。 可 以 将 该 接口 的 任何 实现 作为 参数 传递 。 例 如 ， 更 改 执行 器 执行 任务 
的 默认 顺序 。 

。ThreadFactory : 可以 指定 ThreadFactory 接口 的 一 个 实现 ， 而 且 执 行 器 将 使 用 该 

创建 执行 该 任务 的 线程 。 例 如 ， 你 可 以 使 用 ThreadFactory 接口 创建 Thread 类 
的 一 个 扩展 类 ， 保 存 有 关 任务 执行 时 间 的 日 志 信息 。 

。 RejectedExecutionHandler : 调用 shutdown( ) 方法 或 者 shutdownNow( ) 方法 
之 后 ， 所 有 发 送 给 执行 器 的 任务 都 将 被 拒绝 。 可 以 指定 
RejectedExecutionHandler 接口 的 一 个 实现 管理 这 种 情形 o 


42 ”第 一 个 例子 : 高 级 服务 器 应 用 程序 

第 3 章 介绍 了 一 个 客户 端 /服务 器 应 用 程序 的 例子 。 本 节 实 现 了 一 个 服务 器 ， 针 对 3.3 节 例子 中 
o 展 指数 进行 数据 搜索 ， 实现 了 一 个 客户 端 ， 多 次 调用 该 服务 器 ， 以 便 测试 执行 器 的 
性 能 。 
本 节 将 扩展 这 个 例子 ， 为 其 加 入 几 个 特性 ， 如 下 所 示 。 


明 当 前 任务 是 否 被 撤销 。 
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Su 
cH 


=> 


gkdecorateTask() 方法 。 该 
载 执行 器 所 执行 的 任务 。 


m pam 
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。 可 以 使 用 新 的 撤销 型 查询 撤销 服务 器 上 执 ue 
。 可 以 使 用 优先 级 参数 控制 查询 执行 的 顺序 。 具 TRENA 级 的 任务 将 优先 执行 。 
服务 器 将 计算 任务 的 数量 以 及 使 用 该 服务 器 各 用 户 的 总 执行 时 间 。 


实现 这 些 新 特征 ， 对 服务 器 做 了 以 下 改动 。 


。 为 每 个 查询 增加 了 两 个 参数 。 第 一 个 参数 是 发 送 查 询 的 用 户 名 ， 而 另 一 个 则 是 查询 的 优 
先 级 。 查 询 的 新 格式 有 如 下 几 种 。 
o Query 查询 : 格式 为 
dq;username;priority;codCountry;codIndicator;year ， 其 中 ， 
username 是 用 户 名 ，priority 是 查询 优先 级 ，codCountry 是 国家 代码 ， 
codIndicator 是 指数 代码 ，year 是 可 选 参数 ， 表 示 想 要 查询 的 年 份 
o Report 查询 : 格式 为 r;username;priority;codIndicator ， 其 中 ， 
username 是 用 户 名 ，priority 是 查询 优先 级 ，codIndicator 是 你 想 要 制 表 
的 指数 代码 
o Status #14) 
priority 
o Stop 查询 : 
priority 
还 实现 了 一 种 新 
o Cancel & 
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o 
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o 


HA 


KatNs;username;priority, H+, username 是 用 
REK o 
¡username;priority, H+, username 是 用 
询 的 优先 级 。 
如 下 所 示 ・ 
¿TH Ac;username;priority, HF, username 是 用 
priorit 询 的 优先 级 。 
。 实 现 了 自己 的 执行 器 进行 如 下 操作 。 
o 统计 每 个 用 户 对 服务 器 的 使 用 情况 。 
。 按 照 优先 级 执行 任 
o 控制 任务 的 拒绝 。 
o 修改 了 ConcurrentServer 和 RequestTask 类 以 适应 服务 器 的 新 要 素 。 
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服务 器 的 其 他 要 素 (缓存 系统 、 日 志 系 统 和 DAO 类 等 ) MA, [RUAS ER e 


4.2.1 ServerExecutor É 


如 前 所 述 ， 我 们 实现 了 自己 的 执行 TEN 了 服务 器 任务 ， 也 实现 了 一 些 额外 的 但 是 必要 的 类 用 
以 提供 所 有 功能 。 现 在 介绍 一 下 这 些 类 。 


a 统计 对 象 


该 服务 器 将 计算 每 个 用 户 在 服务 器 上 执行 的 任务 数量 ， 以 及 这 些 任务 的 总 执行 时 间 。 为 
了 存储 这 样 的 数据 ， 我 们 实现 了 ExecutorStatistics 类 。 它 有 两 个 用 于 存储 这 些 信 
息 的 属性 ・ 

public class ExecutorStatistics { 


private AtomicLong executionTime = new AtomicLong(0L); 
private AtomicInteger numTasks = new AtomicInteger(0); 


这 些 属性 都 是 支持 在 单个 变量 上 进行 原子 操作 的 AtomicVariables 型 変量 , 可以 在 


不 同 的 线程 中 使 用 这 些 变量 ， 而 且 不 需要 采用 任何 同步 机 制 。 然 后 ， 该 类 还 有 两 个 方法 
可 以 分 别 增加 任务 数 和 执行 时 间 。 


public void addExecutionTime(long time) { 
executionTime.addAndGet (time); 


} 
public void addTask() { 
numTasks.incrementAndGet(); 


Boa, PANAM TA AAA 
可 读 方 式 获取 信息 


性 值 的 方法 ， 而 


@Override 


重 載 了 toString( ) 方法 以 


public String toString() { 


return "Executed Tasks: "+ getNumTasks()+". Execution Time: "+ 
g 
getExecutionTime(); 


p. 被 拒绝 任务 控制 器 


创建 执行 器 时 ， 可 以 指定 一 个 类 用 以 管理 
shutdown( ) 或 s 


其 拒绝 的 任务 。 如 果 在 执行 器 已 调用 
hutdownNow() 方法 之 后 提交 任务 ， 则 该 任务 会 被 执行 器 拒绝 。 


A, 
为 了 控制 这 种 情况 ， 我 们 实现 了 RejectedTaskController 类 。 该 类 实现 了 
RejectedExecutionHandler 接口 和 rejectedExecution( ) 方法 。 


public class RejectedTaskController implements 
RejectedExecutionHandler { 
@Override 


public void rejectedExecution(Runnable task, ThreadPoolExecutor 


executor) { 
ConcurrentCommand command=(ConcurrentCommand) task; 


try (Socket clientSocket=command.getSocket(); 
Printwriter out = new PrintWriter(clientSocket 


.getOutputStream(), true); 
JA 


String message="The server is shutting down."+ 
" Your request can not be served."+ 
" Shutting Down: "+ 
String.valueOf(executor.isShutdown()) + ". Terminated: "+ 
String.value0f(executor.isTerminated())+ ". Terminating: "+ 
String.valueOf(executor.isTerminating()); 
System.out.println(message); 
} catch (IOException e) { 
e.printStackTrace(); 
} 


} 


每 个 被 拒绝 的 任务 都 要 调用 一 次 rejectedExecution( ) Wik, MATE RB 
名 的 任务 和 拒绝 该 任务 的 执行 器 作为 参数 。 


Y 执行 器 任务 


AN 


[HI 


向 执行 器 提交 Runnable 对 象 时 ， 它 并 不 会 直接 执行 该 对 象 ， 而 是 创建 一 个 新 的 对 象 
即 FutureTask 类 的 一 个 实例 ， 而 且 这 项 任务 由 执行 器 的 工作 线程 执行 。 


在 我 们 的 例子 中 ， 为 了 度量 任务 的 执行 时 间 ， 我 们 
FutureTask 类 。 该 类 扩展 了 FutureTask 类 
ZN: 


在 ServerTask 类 中 实现 了 自己 的 
HLT comparable 接口 ， 如 下 所 
public class ServerTask<V> extends FutureTask<V> implements 
Comparable<ServerTask<V>>{ 


从 内 部 看 


该 类 存储 了 将 作为 Concurrentcommand 对 象 执行 的 查询 o 


private ConcurrentCommand command; 


AER ER AH 
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， 该 类 使 用 FutureTask 类 的 构造 函数 并 
ConcurrentCommand 対象 


存储 了 
public ServerTask(ConcurrentCommand command) て 
super(command, null); 
this.command=command; 

} 


public ConcurrentCommand getCommand() { 
return command; 
} 


public void setCommand(ConcurrentCommand command) { 
this.command = command; 
} 


最 后 , 
A 


该 类 还 实现 了 compareTo( ) 操作 , 
令 ， 如 下 所 示 : 


@Override 


于 比较 


个 ServerTask 实例 存储 的 命 
public int compareTo(ServerTask<V> other) { 
} 


return command.compareTo(other.getCommand()); 


6. 执行 器 
既然 


了 执行 器 的 辅助 类 ， 那 么 必须 实现 执行 器 
ServerExecutor *, Tl 
如 下 所 示 。 


ト EO 


RE o 我 们 实现 了 针对 这 一 
展 了 ThreadPoo1Executor 类 
e startTimes : 这 是 


E DRR 

AA tE 
于 存储 每 个 任务 开始 
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期 的 程序 代码 
{ 键 为 ServerTask 対象 (一 个 Runnable 対象 ) ， 而 
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e executionStatistics: 这 是 用 于 存储 每 个 用 户 使 用 情况 统计 的 
ConcurrentHashMap ， 其 键 为 用 户 名 ， 而 其 值 为 EXxecutorStatistics 对 
象 。 

e CORE POOL SIZE 、MAXIMUM_POOL_SIZE 和 KEEP_ALIVE_TIME : 这 些 是 用 

于 定义 执行 器 特征 的 常量 。 

REJECTED_TASK_CONTROLLER : 这 是 一 个 RejectedTaskController 类 的 

性 ， 用 于 控制 执行 器 拒绝 的 任务 。 


这 可 以 通过 以 下 代码 解释 。 


El 


public class ServerExecutor extends ThreadPoolExecutor { 
private ConcurrentHashMap<Runnable, Date> startTimes; 
private ConcurrentHashMap<String, ExecutorStatistics> 

executionStatistics; 
private static int CORE POOL SIZE = Runtime.getRuntime() 
.availableProcessors(); 
private static int MAXIMUM POOL SIZE = Runtime.getRuntime() 
.availableProcessors(); 

private static long KEEP ALIVE TIME = 10; 


private static RejectedTaskController REJECTED TASK CONTROLLER 
= new RejectedTaskController(); 


public ServerExecutor() { 
super(CORE_POOL_SIZE, MAXIMUM_POOL_SIZE, KEEP_ALIVE_TIME, 
TimeUnit.SECONDS, new PriorityBlockingQueue<>(), 
REJECTED_TASK_CONTROLLER); 


startTimes = new ConcurrentHashMap<>(); 
executionStatistics = new ConcurrentHashMap<>(); 


} 
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皇储 那些 将 在 执行 器 中 执行 的 任务 。 该 类 根据 compareTo( ) 方法 的 执行 结果 对 元 素 
] 因此 其 中 存储 的 元 素 必须 实现 comparable 接口 ) 。 该 类 的 实现 将 允许 我 
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们 按照 优先 级 执行 任务 。 

然后 ， 重 载 7ThreadPoolExecutor 类 的 一 些 方法 。 首 先是 beforeExecute( ) 方 
法 。 该 方法 在 每 个 任务 执行 之 前 执行 。 它 接收 ServerTask 对 象 和 执行 该 任务 的 线程 
作为 参数 。 在 本 例 中 ， 将 实际 日 期 存放 于 ConcurrentHashMap ， 这 样 每 个 任务 的 起 
始 日 期 如 下 所 示 。 


protected void beforeExecute(Thread t, Runnable r) { 
super .beforeExecute(t, r); 
startTimes.put(r, new Date()); 


} 


下 一 个 方法 是 afterExecute( ) 方法 。 该 方法 在 执行 器 的 每 个 任务 执行 完毕 后 执行 ， 
接收 已 执行 的 ServerTask 対象 和 Throwab1e 对 象 ， 其 中 该 方法 将 已 执行 的 
ServerTask 对 象 作为 参数 。 作 为 最 后 一 个 参数 只 有 任务 执行 抛 出 异常 时 才 会 有 值 。 
在 我 们 的 例子 中 ， 将 使 用 该 方法 进行 如 下 操作 。 

(1) 计算 任务 的 执行 时 间 o 


户 的 统计 信息 。 


fi 


a 


(2) 按照 下 述 方式 更 新 


@Override 

protected void afterExecute(Runnable r, Throwable t) { 
super.afterExecute(r, t); 
ServerTask<?> task=(ServerTask<?>)r; 
ConcurrentCommand command=task.getCommand(); 


if (t==null) £ 
if (!task.isCancelled()) £ 
Date startDate = startTimes.remove(r); 
Date endDate=new Date(); 
long executionTime= endDate.getTime() - 
startDate.getTime(); 
ExecutorStatistics statistics = executionStatistics 
.computeIfAbsent (command.getUsername(), 
n -> new ExecutorStatistics()); 
statistics.addExecutionTime(executionTime) ; 
statistics.addTask(); 
ConcurrentServer.finishTask (command.getUsername(), 
command); 


} 
else { 

String message="The task" + command.hashCode() + "of 
user" + command.getUsername() + "has 
been cancelled."; 

Logger. sendMessage (message); 


} else { 
String message="The exception "+t.getMessage()+" has 
been thrown."; 
Logger.sendMessage (message); 


最 后 重 載 newTaskFor( ) 方法 。 该 方法 执行 后 会 转换 发 送 给 执行 器 的 Runnable 对 
象 ， 使 用 执行 器 待 执行 的 FutureTask 实例 中 的 submit( ) 方法 。 在 我 们 的 例子 中 ， 
使用 ServerTask 对 象 替 代 默 认 的 FutureTask 对 象 。 


@Override 
protected <T> RunnableFuture<T> newTaskFor(Runnable runnable, T 
value) { 
return new ServerTask<T>(runnable) ; 


} 


我 们 在 执行 器 中 引入 了 一 种 额外 方法 ， 将 执行 器 中 存储 的 所 有 统计 信息 写 入 日 志 系 统 。 
肖 后 你 将 看 到 ， 该 方法 将 在 服务 器 执行 结束 时 被 调用 ， 代 码 如 下 所 示 : 


public void writeStatistics() { 


for(Entry<String, ExecutorStatistics> entry: executionStatistics 
.entrySet()) { 
String user = entry.getKey(); 
ExecutorStatistics stats = entry.getValue(); 
Logger. sendMessage(user+":"+stats); 


422 ”命令 类 
命令 类 执行 发 送 给 服务 器 的 各 种 查询 。 可 以 向 服务 器 发 送 以 下 5 种 查询 。 
。 Query 查询 :这 种 查询 用 于 获取 有 关 某 个 国家 、 某 个 指数 以 及 某 个 年 份 (可 选 ) 
的 信息 ， 通 过 ConcurrentQueryCommand 类 实现 。 
。 Report 查询 ， 这 种 查询 用 于 获取 有 关 某 个 指数 的 信息 ， 通 过 
ConcurrentReportCommand 类 实现 。 
。Status 查询 : 这 种 查询 用 于 获取 服务 器 状态 的 信息 ， 通 过 
ConcurrentStatusCommand 类 实现 。 
。Cancel 查询 : 这 种 查询 用 于 撤销 j 户 任务 的 执行 ， 通 过 
A E A 类 实现 。 
・ Stop 查询 : 这 种 查询 用 于 停止 服务 器 的 执行 ， 通 过 ConcurrentStopCommand 
类 实现 2 
我 们 还 有 ConcurrentErrorCcommand 类 和 ConcurrentCommand 类 ， 前 一 种 类 用 了 
管理 未 知 命令 到 达 服 务 器 的 情况 ， 后 一 种 类 是 所 有 命令 的 基 类 o 
a. ConcurrentCommand 类 
这 是 每 个 命令 的 基 类 ， 包 含 所 有 命令 的 共性 行为 ， 如 下 所 述 。 
。 调用 实现 每 个 命令 特定 逻辑 的 方法 。 
。 将 结果 写 入 客户 端 。 _- 
。 关闭 在 通信 过 程 中 使 用 的 所 有 资源 。 
该 类 扩展 了 Command 类 并 且 实 现 了 comparable 接口 和 Runnable 接口 。 在 第 3 
的 例子 中 ， 命 令 都 是 较为 简单 的 类 ， 但 在 本 例 中 ， 并 发 命令 都 是 将 要 发 送 给 执行 
器 的 Runnable 对 象 。 


Comparable<ConcurrentCommand>, 


public abstract class ConcurrentCommand extends Command implements 
Runnable{ 


该 类 有 以 下 三 个 属性 o 
e username: 该 属性 用 于 存储 发 送 该 查询 的 a AER o 
e priority: 该 属性 用 于 存储 查询 的 优先 级 ， 它 将 决定 查询 的 执行 顺序 。 
。 socket: 该 属性 表示 的 是 用 于 与 客户 端 通 e 

该 类 的 构造 函数 中 对 这 三 个 属性 进行 了 初始 化 。 


private String username; 
private byte priority; 
private Socket socket; 


public ConcurrentCommand(Socket socket, 
super (command); 
username=command[1]; 
priority=Byte.parseByte(command[2]); 
this.socket=socket; 


String[] command) { 


该 类 的 主要 功能 位 于 抽象 方法 execute() 和 run( ) 方法 中 。 其 中 ， 每 个 具体 命令 
都 通过 实现 execute( ) 方法 计算 和 返回 查询 的 结 采 。run( ) 方法 调用 
execute() 方法 ， 将 结果 存储 在 缓存 ， 写 入 套 接 字 中 ， 并 且 关 闭 在 通信 中 使 用 的 
所 有 资源 ， 代 码 如 下 所 示 : 


@Override 
public abstract String execute(); 


@Override 
public void run() { 


String message="Running a Task: Username: "+username+"; 
Priority: "+priority; 

Logger. sendMessage (message); 

String ret=execute(); 


ParallelCache cache = ConcurrentServer.getCache(); 


if (isCacheable()) £ 
cache.put(String.join(";'", command), ret); 


try (Printwriter out = new PrintWriter(socket.getOutputStream(), 


true);) て 


System.out.println(ret); 


} catch (IOException e) { 
e.printStackTrace(); 


System.out.println(ret); 


最 后 , compareTo( ) 方法 使 用 其 优先 级 属性 确定 任务 执行 的 顺序 。 
PriorityBlockingQueue | 类 将 使 用 该 方法 对 任务 进行 排序 ， 这 样 具 有 较 高 优先 
级 的 任务 将 优先 执行 。 请 注意 ， 当 getPriority() DARE 一 个 较 低 的 值 时 ， 该 
任务 具有 较 高 的 优先 级 。 如 果 任务 的 getPriority() 方法 返回 1 ， 则 该 任务 的 优 
先 级 高 于 使 用 该 方法 返回 2 的 任务 的 优先 级 。 


@Override 
public int compareTo(ConcurrentCommand o) 
return Byte.compare(o.getPriority(), this.getPriority()); 


. 具体 的 命令 


我 们 已 经 在 实现 不 同 的 命令 类 时 做 了 稍 许 改 动 ， 而 且 还 增加 了 一 个 
ConcurrentCance1Command 类 实现 的 新 类 。 这 a 主要 逻辑 都 包含 在 
execute( ) 方法 中 ， 该 方法 计算 查询 的 响应 并 且 将 其 作为 字符 串 返 回 。 


ConcurrentCancelCommand 新 美的 execute( ) 方法 调用 ] 
ConcurrentServer 美的 cance1Tasks( ) 方法 。 该 方法 将 停止 执行 与 参数 中 指 
定 用 户 相关 的 所 有 竺 处 理 任务 。 


@Override 
public String execute() { 


ConcurrentServer.cancelTasks(getUsername()); 


String message = "Tasks of user "+getUsername()+ 
" has been cancelled."; 

Logger.sendMessage (message); 

return message; 


ConcurrentReportCommand 美的 execute( ) 方法 使 用 WDIDAO 美的 query( ) 
方法 获取 用 户 请 求 的 数据 。 在 第 3 中 你 可 以 找到 该 方法 的 实现 ， 这 里 实现 过 程 
基本 一 样 。 唯 一 的 区 别 在 于 命令 数组 索引 ， 如 下 所 示 ， 


@Override 
public String execute() { 


WDIDAO dao=WDIDAO.getDA0(); 


if (command.length==5) { 
return dao.query(command[3], command[4]); 
} else if (command.length==6) { 
try { 
return dao.query(command[3], command[4], 
Short.parseShort(command[5])); 
} catch (NumberFormatException e) { 
return "ERROR;Bad Command"; 


} else 
return "ERROR;Bad Command"; 


ConcurrentQueryCommand 美的 execute( ) 方法 使 用 WDIDAO 美的 report( ) 
方法 获取 数据 。 在 第 3 章 中 ， 可 以 找到 该 方法 的 实现 。 这 里 的 实现 过 程 几乎 相同 ， 
唯一 的 区 别 在 于 命令 数组 索引 。 


@Override 
public String execute() { 


WDIDAO dao=WDIDAO. getDAO(); 
return dao.report(command[3]); 


ConcurrentStatusCommand 类 在 其 构造 函数 中 有 一 个 额外 参数 : Executor 对 
象 ， 该 对 象 将 执行 这 些 命令 。 这 些 命令 使 用 该 对 象 获取 有 关 执 行 器 的 信息 ， 并 且 将 
EEN 应 发 送 给 用 户 。 这 一 实现 与 第 3 章 基本 相同 。 我 们 使 用 同样 的 方法 获取 
Executor 对 象 的 状态 。 


ConcurrentStopCommand 美和 ConcurrentErrorCommand 类 也 与 第 3 章 相 
同 ， 因 此 不 再 对 其 源 代码 进行 说 明 。 


4.2.3 ”服务 器 部 件 
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服务 器 接收 来 自 所 有 客户 端的 查询 ， 创 建 执行 这 些 查询 的 命令 类 并 且 将 其 发 送 给 执行 
dr ° ARS AREA 如 下 两 个 类 实现 


e ConcurrentServer 类 : 该 类 包含 服务 器 的 main( ) 方法 以 及 额外 用 于 撤销 任务 
和 结束 系统 执行 的 方法 。 
。RequestTask 类 : 该 类 创建 命令 并 且 将 其 发 送 给 执行 器 。 


与 第 3 章 中 的 例子 相 比 ， 最 主要 的 区 别 在 于 RequestTask 的 角 色 ・ 在 Simp1eServer 
例子 中 ，ConcurrentServer 类 为 每 个 查询 创建 一 个 RequestTask 对 象 ， 并 且 将 其 
发 送 给 执行 器 。 在 本 例 中 ， 只 有 个 将 作为 线程 执行 的 RequestTask 的 实例 。 当 

ConcurrentServer 收 到 一 个 连接 ， 它 将 与 客户 端 通信 所 需 的 套 接 字 存放 在 待 连接 列 
表 中 。RequestTask 线程 读 取 该 套 接 字 ， 处 理 客 户 端 发 送 的 数据 ， 创 建 相 应 的 命令 并 
将 其 发 送 给 执行 器 。 


这 样 更 改 的 主要 原因 是 为 了 只 在 任务 中 留 下 执行 器 要 执行 的 查询 代码 ， 而 将 预 处 理 代码 
放 在 执行 器 之 外 。 


a. ConcurrentServer 类 


F 
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ConcurrentServer 类 需要 一 些 内 部 属性 才能 更 好 地 工作 。 


。 一 个 Parallelcache 实例 ， 用 于 调用 缓存 系统 。 

。 一 个 ServerSocket 实例 ， 用 于 从 客户 端 获取 连接 。 

。 一 个 布尔 值 ， 用 于 指明 该 类 何 时 要 停止 执行 。 

。 一 个 LinkedBlockingQueue 实例 ， 用 于 存储 那些 向 服务 器 发 送 消 息 的 客户 
端的 套 接 字 。 这 些 套 接 字 将 由 RequestTask 类 处 理 。 

。 一 个 ConcurrentHashMap ， 用 于 存放 执行 器 执行 的 每 个 任务 所 关联 的 
Future 对 象 。 它 的 键 是 发 送 查 询 的 用 户 名 ， 而 其 值 为 男 一 个 Map ， 该 Map 的 
刍 是 一 个 concurrenCommand 对 象 ， 它 的 值 是 与 任务 相关 联 的 Future 实 


例 。 使 用 这 些 Future 实例 撤销 任务 的 执行 。 
。 一 个 RequestTask 实例 ， 用 于 创建 命令 并 且 将 它们 发 送 给 执行 器 。 
。 一 个 Thread 对 象 ， 用 于 执行 RequestTask 对 象 。 


这 部 分 的 代码 如 下 。 


public class ConcurrentServer { 

private static ParallelCache cache; 

private static volatile boolean stopped=false; 

private static LinkedBlockingQueue<Socket> pendingConnections; 

private static ConcurrentMap<String, ConcurrentMap 
<ConcurrentCommand, ServerTask<?>>> 
taskController; 

private static Thread requestThread; 

private static RequestTask task; 


该 类 的 main( ) 方法 初始 化 这 些 对 象 并 且 打 开 ServerSocket 实例 监听 来 自 客 户 
端的 连接 。 此 外 ， 它 创建 了 RequestTask 对 象 并 且 将 其 作为 线程 执行 。 在 此 之 
是 一 个 循环 ， 直到 shutdown() 方法 改变 了 stopped 属性 的 取 值 为 止 。 此 后 ， 
main( ) 方 法 等 待 Excecutor 对 象 结束 ， 它 要 调用 RequestTask 対象 的 


endTermination() 方法 ， 使用 finishServer( ) 方法 关闭 Logger 系统 
和 RequestTask 対象 


m 


public static void main(String[] args) { 


WDIDAO dao=WDIDAO. getDAO(); 


cache=new ParallelCache(); 

Logger. initializeLog(); 

pendingConnections = new LinkedBlockingQueue<Socket>(); 

taskController = new ConcurrentHashMap<String, 
ConcurrentHashMap<Integer, Future<?>>>(); 

task=new RequestTask(pendingConnections, taskController); 

requestThread=new Thread(task); 

requestThread.start(); 


System.out.printin("Initialization completed."); 


serverSocket= new ServerSocket (Constants.CONCURRENT PORT); 
do { 
try { 
Socket clientSocket = serverSocket.accept(); 
pendingConnections.put(clientSocket) ; 
} catch (Exception e) { 
e.printStackTrace(); 


} 
} while (!stopped); 
finishServer(); 
System.out .print1n( "Shutting down cache"); 
cache . shutdown( ) ; 
System.out.printin("Cache ok" + new Date( ) ) 


关闭 服务 器 的 执行 器 包括 两 种 方法 。shutdown( ) 方 法 会 政変 stopped 変量 的 取 
值 并 且 关 闭 serverSocket 实例 。 finishserver () 方法 用 于 停止 执行 器 ， 中 断 
执行 RequestTask 对 象 的 线程 ， 并 且 关 闭 Logger 系统 。 我 们 将 关闭 服务 器 的 过 
程 划 分 为 两 部 分 ， 直 到 服务 器 的 最 后 条 指 令 都 可 以 使 用 Logger 系统 。 


public static void shutdown() { 
stopped=true; 
try { 
serverSocket.close(); 
} catch (IOException e) { 
e.printStackTrace(); 


} 

} 

private static void finishServer() { 
System.out.printin("Sshutting down the server..."); 


task.shutdown(); 

System.out.printin("Shutting down Request task"); 
requestThread.interrupt(); 
System.out.printin("Request task ok"); 
System.out.printin("Closing socket"); 
System.out.printin("Sshutting down logger"); 
Logger. sendMessage("Shutting down the logger"); 
Logger .shutdown(); 

System.out.printin("Logger ok"); 
System.out.printin("Main server thread ended"); 


TRAE TRA o 。 正 如 前 面 提 到 的 . Server 类 使 用 一 
or A 存储 所 有 与 用 户 关联 的 任务 。 首 先 ， 获 得 含有 用 
户 所 有 任务 的 Map ， 然 后 调用 Future 对 象 的 cancel( ) 方法 处 理 那 些 任务 的 所 有 
Future 对 象 。 传 递 true 值 作为 参数 ， 这 样 ， 如 果 执 行 器 正在 执行 一 个 来 自 该 


户 的 任务 ， 那 么 它 将 会 中 断 。 我 们 也 给 出 了 必要 的 代码 以 避免 撤销 


ConcurrentCancelCommand 


public static void cancelTasks(String username) { 


ConcurrentMap<ConcurrentCommand, ServerTask<?>> userTasks = 
taskController.get(username); 
if (userTasks == null) { 
return; 


int taskNumber = 0; 


Iterator<ServerTask<?>> it = userTasks.values().iterator(); 
while(it.hasNext()) { 
ServerTask<?> task = it.next(); 
ConcurrentCommand command = task.getCommand(); 
if(!(command instanceof ConcurrentCancelCommand) && 
task.cancel(true)) { 
taskNumber++; 
Logger. sendMessage("Task with code "+command.hashCode( )+ 
"cancelled: "+ command.getClass() 
.getSimpleName()); 
it.remove(); 


} 
String message=taskNumber+" tasks has been cancelled."; 
Logger.sendMessage (message); 


最 后 我 们 还 给 出 了 finishTask( ) 方法 ， 当 任务 正常 执行 结束 时 ， 该 方法 从 
ServerTask 对 象 的 嵌 套 Map 中 清除 与 该 任务 相关 的 Future 对 象 。 如 下 所 示 : 


public static void finishTask(String username, ConcurrentCommand 
command) { 


ConcurrentMap<ConcurrentCommand, ServerTask<?>> userTasks = 
taskController.get(username) ; 
userTasks.remove(command) ; 
String message = "Task with code "+command.hashCode( )+ 
" has finished"; 
Logger. sendMessage (message); 


B. RequestTask 类 


RequestTask 类 是 ConcurrentServer 类 与 Executor 类 之 间 的 中 介 ， 
ConcurrentServer 类 用 于 连接 客户 端 ，Executor 类 用 于 执行 并 发 任务 。 
RequestTask 类 打开 与 客户 端 连接 的 套 接 字 ， 读 取 查询 数据 ， 创 建 适当 的 命令 ， 
并 且 将 命令 发 送 给 执行 器 。 


该 类 用 到 以 下 几 个 内 部 属性 。 


。LinkedBlockingQueue : ConcurrentServer 类 在 其 中 存储 客户 端 套 接 


+. o 


* ServerExecutor : 将 命令 作为 并 发 任务 执行 。 
・ConcurrentHashMap : 存储 与 任务 相关 的 Future 対象 * 


EN 
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public class RequestTask implements Runnable { 
private LinkedBlockingQueue<Socket> pendingConnections; 
private ServerExecutor executor = new ServerExecutor(); 
private ConcurrentMap<String, ConcurrentMap<ConcurrentCommand, 
ServerTask<?>>> taskController; 
public RequestTask(LinkedBlockingQueue<Socket> 
pendingConnections, ConcurrentHashMap<String, 
ConcurrentHashMap<Integer, Future<?>>> 
taskController) { 
this.pendingConnections = pendingConnections; 
this.taskController = taskController; 


} 


run( ) 方法 是 该 类 的 主要 方法 。 它 执行 循环 直到 该 线程 中 断 处 理 存 放 在 
pendingConnections 对 象 中 的 套 接 字 。 在 该 对 象 中 ，ConcurrentServer 类 
存储 了 与 不 同 客户 端 通 信 所 用 的 套 接 字 ， 并 且 这 些 客户 端 都 向 该 服务 器 发 送 了 一 个 
查询 。 它 打开 套 接 字 ， 读 取 数 据 并 且 创 建 相应 的 命令 。 它 还 将 命令 发 送 给 执行 器 ， 
并 且 在 双重 ConcurrentHashMap 中 存储 Future 对 象 ， 将 该 对 象 与 任务 的 
hashCode 以 及 发 送 查 询 的 用 户 相 关联 。 


public void run() { 
try £ 
while (!Thread.currentThread().interrupted()) £ 
try { 
Socket clientSocket = pendingConnections.take(); 
BufferedReader in = new BufferedReader (new 
InputStreamReader (clientSocket.getInputStream())); 

String line = in.readLine(); 


Logger. sendMessage(line); 
ConcurrentCommand command; 


ParallelCache cache = ConcurrentServer.getCache(); 
String ret = cache.get(line); 
if (ret == null) { 
String[] commandData = line.split(";"); 
System.out.printin("Command: " + commandData[0]); 
switch (commandData[0]) { 
case "q": 
System.out.println("Query"); 
command = new ConcurrentQueryCommand(clientSocket, 
commandData); 
break; 
case "r": 
System.out.println("Report"); 
command = new ConcurrentReportCommand (clientSocket, 
commandData); 
break; 
case "s": 
System.out.println("Status"); 
command = new ConcurrentStatusCommand(executor, 
clientSocket, 
commandData); 
break; 
case "z": 
System.out.println("Stop"); 
command = new ConcurrentStopCommand(clientSocket, 
commandData); 
break; 
case "c": 
System.out.println("Cancel"); 
command = new ConcurrentCancelCommand (clientSocket, 
commandData); 
break; 
default: 


System.out.printin("Error"); 

command = new ConcurrentErrorCommand(clientSocket, 
commandData ) / 

break; 


} 


ServerTask<?> controller = (ServerTask<?>)executor 

. submit (command); 
storeContoller (command. getUsername(), controller, command); 

} else { 
Printwriter out = new PrintWriter (clientSocket 
.getOutputStream(), true); 

System.out.println(ret); 
clientSocket.close(); 


} 


} catch (IOException e) { 
e.printStackTrace(); 


} 
} 
} catch (InterruptedException e) { 
// 不 需要 执行 任何 操作 
} 


} 


storeContro11er( ) 方 法 在 双 重 ConcurrentHashMap 中 存储 Future 対象 > 


private void storeContoller(String userName, ServerTask<?> 
controller, ConcurrentCommand command) { 
taskController.computeIfAbsent(userName, k -> new 
ConcurrentHashMap<>()).put(command, 
controller);taskController.computelfAbsent(userName, k -> new 
ConcurrentHashMap<>()).put(command, controller); 
} 


最 后 ， 给 出 了 两 个 用 于 管理 Executor 类 执行 的 方法 。 其 中 一 个 调用 了 面向 执行 器 
的 shutdown( ) 方法 ， 而 另 一 个 方法 则 等 待 其 结束 。 请 记 住 ， 必 须 显 式 调 用 
shutdown( ) 方法 或 者 shutdownNow( ) 方法 以 终止 执行 器 的 执行 。 和 否则， 程序 
不 会 结束 。 请 看 下 面 的 代码 : 


Tr 
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public void shutdown() { 


String message="Request Task: "+pendingConnections.size()+" 
pending connections."; 

Logger.sendMessage (message); 

executor.shutdown(); 


} 


public void terminate() { 
try { 
executor.awaitTermination(1,TimeUnit.DAYS); 
executor .writeStatistics(); 
} catch (InterruptedException e) { 
e.printStackTrace(); 


} 


424 客 戸 端 部 件 


现在 ， 该 是 测试 服务 器 的 时 候 了 。 在 本 例 中 ， 并 不 用 担心 执行 时 间 ， 测 试 的 主要 
标 是 检查 新 功能 是 否 工 作 正 常 。 


将 客户 端 部 件 划分 成 下 述 两 个 类 。 


e The ConcurrentClient 类 : 该 类 实现 了 服务 器 单独 的 一 个 客户 端 。 该 类 
的 每 个 实例 都 有 不 同 的 用 户 名 称 。 该 客户 端 创建 了 100 个 查询 ， 其 中 90 个 为 

Query 型 ，10 个 为 Report 型 。Query 型 的 查询 其 优先 级 为 5， 而 Report 型 
的 查询 优先 级 较 低 为 10 。 
e MultipleConcurrentClient 类 : 该 类 以 并 行 方式 度量 了 多 个 并 发 客户 端 
的 行为 。 我 们 使 用 了 1 到 5 个 并 发 客户 端 测试 服务 器 。 该 类 还 测试 了 cancel 命 


令 和 stop 命令 。 
我 们 采用 一 个 执行 器 执行 对 服务 器 的 并 发 请 求 ， 以 便 增 加 客户 端的 并 发 展 级 。 
在 下 面 的 屏幕 截图 中 ， 可 以 看 到 任务 撤销 的 结果 。 


IT 


E 


22953 01:13:39 CET 2016: Fri Dec 23 01:13:34 CET 2016: Task with code 195713384cancelled: ConcurrentQueryCommand 
22963 01:13:39 CET 2016: Fri Dec 23 01:13:34 CET 2016: Task with code 1547932103cancelled: ConcurrentReportCommand 
173 01:13:39 CET 2016: Fri Dec 23 01:13:34 CET 2016: Task with code 1917877449cancelled: ConcurrentQueryCommand 
3 01:13:39 CET 2016: Fri Dec 23 01:13:34 CET 2016: Task with code 158306644cancelled: ConcurrentQueryCommand 
3 01:13:39 CET 2016: Fri Dec 23 01:13:34 CET 2016: Task with code 336552833cancelled: ConcurrentQueryCommand 
13 01:13:39 CET 2016: Fri Dec 23 01:13:34 CET 2016: 5 tasks has been cancelled. 
3 01:13:39 CET 2016: Fri Dec 23 01:13:34 CET 2016: Tasks of user USER_2 has been cancelled. 


在 本 例 中 ， 用 户 USER_2 的 四 个 任务 已 被 撤销 。 
下 面 的 屏幕 截图 展示 了 每 个 用 户 的 任务 数量 和 执行 时 间 的 最 终 统计 信息 


o 


)9 Fri Dec 23 00:46:00 CET 2016: Fri Dec 23 00:46:00 CET 2016: Task with code 938223162 has finished 
1510 Fri Dec 23 00:46:00 CET 2016: Fri Dec 23 00:46:00 CET 2016: USER 2:Executed Tasks: 400. Execution Time: 10574 
4511 Fri Dec 23 00:46:00 CET 2016: Fri Dec 23 00:46:00 CET 2016: USER 3:Executed Tasks: 300. Execution Time: 7074 
Fri Dec 23 00:46:00 CET 2016: Fri Dec 23 00:46:00 CET 2016: USER_1:Executed Tasks: 500. Execution Time: 14454 

4513Fri Dec 23 00:46:00 CET 2016: Fri Dec 23 00:46:00 CET 2016: admin:Executed Tasks: 1. Execution Time: 1 

314 Fri Dec 23 00:46:00 CET 2016: Fri Dec 23 00:46:00 CET 2016: USER_4:Executed Tasks: 200. Execution Time: 5381 
4 Fri Dec 23 00:46:00 CET 2016: Fri Dec 23 00:46:00 CET 2016: USER_5:Executed Tasks: 100. Execution Time: 2443 

> Fri Dec 23 00:46:00 CET 2016: Fri Dec 23 00:46:00 CET 2016: Shuttingdown the logger 


43 ”第 二 个 例子 : 执行 周期 性 任务 


在 前 面 含 有 执行 器 的 例子 中 ， 各 任务 都 被 执行 一 次 ， 而 且 都 被 尽快 执行 。 执行 器 
架 包 括 了 其 他 一 些 执行 器 实现 ， 这 使 我 们 在 任务 的 执行 时 间 上 有 了 更 多 的 灵活 性 。 

ScheduledThreadPoolExecutor 类 使 我 们 可 以 周期 性 地 执行 任务 ， 或 者 经 过 
某 一 延 时 后 执行 任务 。 


本 市 将 通过 二 实现 一 个 RSS 订 阅 程 序 ， 促 使 你 学 会 如 何 执行 周期 性 任务 。 在 这 个 简单 
mu ， 需 要 定期 执行 同一 任务 (阅读 RSS 订 阅 上 的 新 闻 ) 。 我 们 的 例子 有 如 下 
SIE 


。 在 文件 中 存储 RSS 源 。 我 们 从 一 些 重要 的 报纸 (例如 《纽约 时 报 》《 每 日 新 
闻 》《 卫 报 》 等 ) 上 选取 了 一 些 世界 新 闻 。 

。 对 每 个 RSS 源 ， 我 们 向 执行 器 发 送 一 个 Runnable 对 象 。 每 当 执行 器 运行 对 象 

寸 ， 它 会 解析 RSS 源 并 且 将 其 转换 成 一 个 含有 RSS 内 容 的 
CommonInformationItem 対象 列表 o 

。 我 们 使 用 生产 者 /消费 者 设计 模式 将 RSS 新 闻 写 入 磁盘 o 者 是 执行 器 的 任 
务 ， 它 们 将 每 个 commonInformationItem 写 入 到 缓存 中 。 缓 存 中 仅 存 储 新 
条 目 。 消 费 者 是 一 个 独立 线程 ， 它 从 缓存 中 读 取 新 闻 并 将 其 写 入 磁盘 。 


从 任务 执行 结束 到 下 一 次 执行 的 时 间 间 隔 是 


IHI 


F 
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我 们 还 实现 了 这 个 例子 的 高 级 版 本 ， 在 该 版 本 中 ， 一 个 任务 的 两 次 执行 之 间 的 时 间 
间隔 是 可 变 的 。 


4.31 公共 部 件 


正如 前 面 提 过 的 ， 我 们 读 取 一 个 RSS 订 阅 并 将 其 转换 成 一 个 对 象 列 表 。 为 了 解析 该 
RSS 文 件 ， 将 其 视 为 一 个 XML 文件 ， 而 且 在 RSSDataCapturer 类 中 实现 了 一 个 
SAX (Simple API for XML 的 缩写 E) 解析 器 。 它 可 以 解析 该 文件 并 且 创 建 一 个 

CommonInformationItem 列表 。 该 类 为 每 个 RSS 项 都 存储 了 下 述 信息 。 


Title: RSS 项 的 标题 。 
Date : RSS 项 的 日 期 。 
Link: RSS 项 的 链接 。 
Description : RSS 项 的 文本 描述 o 

ID: RSS 项 的 ID。 如 果 该 项 并 不 含有 ID ， 那 么 我 们 还 可 以 计算 其 ID 。 
Source: RSS 源 的 名 称 。 


于 使 ja) aa 者 设计 模式 将 新 闻 存 入 磁盘 ， 因 此 需要 用 缓存 储存 新 闻 ， 而 
在 本 例 中 还 需要 一 个 Consumer 类 ， 该 类 可 从 缓存 中 读 取 新 闻 并 将 其 写 入 磁盘 。 


我 们 在 NewsBuffer 类 中 实现 了 缓存 ， 该 类 有 两 个 内 部 属 改 


e LinkedBlockingQueue : 这 是 一 个 带 有 阻塞 操作 的 并 发 数据 结构 。 如 果 从 
列表 中 获取 某 个 项 但 是 列表 为 空 ， 那 么 调用 方法 的 线程 就 会 被 阻塞 ， 直 到 列表 

:有 元 素 为 止 。 我 们 使 用 这 种 结构 存储 CommonInformationItems - 

・ ConcurrentHashMap : 这 是 HashMap 的 一 个 并 发 实现 。 它 用 来 存储 之 前 在 
缓存 中 存放 的 各 新 闻 项 的 ID 。 


我 们 将 只 插入 那些 此 前 并 未 插入 缓存 中 的 新 闻 。 


= 


o 
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public class NewsBuffer { 
private LinkedBlockingQueue<CommonInformationItem> buffer; 
private ConcurrentHashMap<String, String> storedItems; 


public NewsBuffer() { 
buffer=new LinkedBlockingQueue<>(); 
storedItems=new ConcurrentHashMap<String, String>(); 


我 们 在 NewsBuffer 类 中 给 出 了 两 种 方法 。 其 方法 用 于 将 某 一 项 存储 到 组 
存 ， 并 预先 检查 该 项 此 前 是 否 已 经 插入 ; 另 一 种 方法 用 于 从 缓存 中 获取 下 一 项 。 使 
Hcompute( ) 方法 将 元 素 插入 ConcurrentHashMap 。 该 方法 接收 一 个 lambda 表 
达 式 作为 参数 ， 其 中 含有 键 和 与 键 相关 联 的 实际 值 (如 果 该 键 没有 相关 联 的 值 则 大 
null) 。 在 我 们 的 例子 中 ， 将 此 前 并 未 处 理 过 的 项 加 入 缓存 。 我 们 使 用 add( ) 方法 
和 take( ) 方法 插入 、 获 取 和 删除 队列 中 的 元 素 。 


public void add (CommonInformationItem item) { 
storedItems.compute(item.getId(), (id, oldSource) -> £ 
if(oldSource == null) て 
buffer .add(item); 
return item.getSource(); 
} else { 
System.out.printin("Item "+item.getId()+" has been processed 
before"); 
return oldSource; 


} 
H); 


} 


public CommonInformationItem get() throws InterruptedException { 
return buffer.take(); 
} 


缓存 的 项 可 通过 NewsWriter 类 写 入 磁盘 ， 该 类 将 作为 一 个 独立 线程 执行 。 该 类 
只 有 一 个 内 部 属性 ， 该 属性 指向 在 应 用 程序 中 使 用 的 NewsBuffer 类 。 


a 


public class Newswriter implements Runnable { 
private NewsBuffer buffer; 
public Newswriter(NewsBuffer buffer) { 
this.buffer=buffer; 
} 


Runnable 対象 的 run( ) 方法 a 获取 CommonInformationItenm 实例 
并 且 将 其 保存 到 磁盘 。 与 使 用 阻塞 型 方法 一 样 ， 如 果 该 缓存 为 空 ， 则 该 线程 将 被 阻 
塞 ， 直 到 缓存 中 有 元 素 为 止 。 


public void run() { 
try { 
while (!Thread.currentThread().interrupted()) { 
CommonInformationItem item=buffer.get(); 
Path path=Paths.get ("output\\"+item.getFileName()); 


try (Bufferedwriter filewriter = Files.newBufferedwriter 
(path, StandardOpenOption.CREATE)) { 
filewriter.write(item.toString()); 
} catch (IOException e) { 
e.printStackTrace(); 
} 


} 

} catch (InterruptedException e) { 
// 正常 执行 

} 


} 


432 ”基础 阅读 器 


该 基础 阅读 器 将 使 用 标准 的 ScheduledThreadPoo1LExecutor 关 执 行 周期 性 E 
务 。 我 们 对 每 个 RSS 源 都 执行 一 个 任务 ， 而 且 从 任务 执行 结束 到 下 次 执行 开始 
时 间 为 一 分 钟 。 这 些 并 发 任务 都 是 在 NewsTask 类 中 实现 的 ， RENNER 
性 ， 用 于 存储 RSS 订 阅 的 名 称 、URL， 以 及 用 于 存储 新 闻 的 NewsBuffer É > 


mA 
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public class NewsTask implements Runnable { 
private String name; 
private String url; 
private NewsBuffer buffer; 


public NewsTask (String name, String url, NewsBuffer buffer) { 
this.name=name; 
this.url=url; 
this.buffer=buffer; 


该 Runnable 対象 的 run( ) 方法 直接 解析 RSS 订 阅 ， 获 取 一 个 
CommonItemInterface 实例 列表 ， 并 将 它们 存储 到 缓存 中 。 该 方法 将 周期 
行 。 每 次 执行 时 ， 该 run( ) 方法 都 将 从 开始 执行 到 结束 。 


E 


生 执 


@Override 

public void run() { 
System.out.printin(name + " : Running. " + new Date()); 
RSSDataCapturer capturer = new RSSDataCapturer(name); 
List<CommonInformationItem> items=capturer.load(url); 


for (CommonInformationItem item: items) { 
buffer.add(item); 


DH 


在 本 例 中 ， 还 实现 了 另 一 个 线程 ， 以 完成 执行 器 和 任务 的 初始 化 ， 然 后 等 待 执行 
束 。 我 们 已 将 这 个 类 命名 为 NewsSystem。 该 类 有 三 个 内 部 属性 ， 用 ] a E 
RSS 源 的 文件 路 径 、 用 于 存放 新 闻 的 缓存 、 以 及 一 个 控制 其 执行 
CountDownLatch 对 象 。CountDownLatch 类 是 一 种 同步 机 制 ， 人 允许 存在 一 个 
线程 等 待 某 一 事件 。 第 11 章 将 详细 介绍 该 类 的 用 途 。 我 们 有 如 下 代码 。 


public class NewsSystem implements Runnable { 
private String route; 
private ScheduledThreadPoolExecutor executor; 
private NewsBuffer buffer; 
private CountDownLatch latch=new CountDownLatch(1); 


public NewsSystem(String route) { 
this.route = route; 
executor = new ScheduledThreadPoolExecutor 
(Runtime.getRuntime().availableProcessors()); 
buffer=new NewsBuffer(); 


ferun() 方法 中 ， 我 们 读 取 了 所 有 的 RSS 源 ， 为 每 个 RSS 源 创建 了 一 个 NewsTask 
> 将 e 执行 器 。 使 用 Executors 类 的 
newScheduledThreadPoo1() 方法 创建 执行 器 ， 并 使 用 
scheduleAtFixedDelay() 方法 将 任务 发 送 给 该 执行 器 ， 也 将 Newswriter 实 
例 作 为 一 个 线程 启动 。run( ) 方法 等 待 通知 消息 ， 在 收 到 通知 后 采用 
CountDownLatch 美的 await( ) Wye REA ; 结束 NewsWriter 任务 
和 ScheduledExecutor 的 执行 。 


@Override 
public void run() { 
Path file = Paths.get(route); 
NewsWriter newsWriter=new NewsWriter (buffer); 
Thread t=new Thread(newswriter) ; 
t.start(); 


try (InputStream in = Files.newInputStream(file) ; 


BufferedReader reader = new BufferedReader (new 
InputStreamReader(in))) £ 
String line = null; 
while ((line = reader.readLine()) != null) { 
String data[] = line.split(";"); 


NewsTask task = new NewsTask(data[0], data[1], buffer); 
System.out.printin("Task "+task.getName()); 
executor. schedulewithFixedDelay(task,0, 1, 

TimeUnit. MINUTES); 


} 
} catch (Exception e) { 
e.printStackTrace(); 


} 


synchronized (this) { 
try { 
latch.await(); 
} catch (InterruptedException e) { 
e.printStackTrace(); 
} 
} 


System.out .print1n( "Shutting down the executor."); 
executor.shutdown(); 

t.interrupt(); 

System.out.printin("The system has finished."); 


} 


我 们 还 实现 了 shutdown( ) 方法 。 该 方法 将 告知 NewsSystem 类 必须 使 用 
CountDownLatch 美的 countDown( ) 方法 停止 其 执行 过 程 。 该 方法 将 会 唤醒 
run( ) 方法 ， 这 样 就 可 以 关闭 正在 运行 NewsTask 对 象 的 执行 器 。 


public void shutdown() て 
latch.countDown(); 
} 


本 例 最 后 一 个 类 是 Main 类 ， 它 实现 了 该 例 中 的 main( ) 方法 。 该 类 将 
NewsSystem 实例 作为 一 个 线程 启动 ， 等 待 10 分 钟 后 ， 通 知 线程 结束 执行 ， 进 而 
结束 整个 系统 的 执行 ， 如 下 所 示 。 


public class Main { 
public static void main(String[] args) { 


// 创建 system 并 将 其 作为 一 个 线程 执行 
NewsSystem System=new NewsSystem("data\\sources.txt"); 


Thread t=new Thread(system); 
t.start(); 


// 等 待 19 分 钟 

try { 
TimeUnit.MINUTES.sleep(10); 

} catch (InterruptedException e) { 
e.printStackTrace(); 


// 通知 System 终止 


system.shutdown(); 


} 


执行 本 例 时 ， 可 以 看 到 各 个 任务 如 何以 周期 性 方式 执行 ， 以 及 新 闻 项 如 何 写 入 磁 


盘 ， 如 下 图 所 示 。 


|rask The New York Times 

Task Daily News 

Task Washington Post 

Task Los Angeles Times 

Task Wall Street Journal 

Task Denver Post 

Task New York Post 

Task Newsday 

Task BBC 

Task Financial Times 

The New York Times: Running. Fri Dec 23 12:05:38 CET 2016 
Daily News: Running. Fri Dec 23 12:05:38 CET 2016 
Washington Post: Running. Fri Dec 23 12:05:38 CET 2016 
Los Angeles Times: Running. Fri Dec 23 12:05:38 CET 2016 
Wall Street Journal: Running. Fri Dec 23 12:05:39 CET 2016 
Denver Post: Running. Fri Dec 23 12:05:39 CET 2016 

Item https: //ww.washingtonpost.com/world/the_americas/explosi: 
New York Post: Running. Fri Dec 23 12:05:39 CET 2016 
Newsday: Running. Fri Dec 23 12:05:39 CET 2016 

BBC: Running. Fri Dec 23 12:05:39 CET 2016 

Financial Times: Running. Fri Dec 23 12:05:39 CET 2016 
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第 一 步 是 实现 一 个 类 ， 用 于 获取 一 个 周期 性 任务 两 次 执行 之 间 的 时 延 。 我 们 将 其 
为 Timer 类 。 该 类 只 有 一 个 名 为 getPeriod( ) 的 静态 方法 ， 该 方法 返回 的 是 
Ne 下 面 是 实现 过 程 ， 不 过 也 可 以 自己 编 


Rr 


cheduledThreadPoolExecutor 获得 特定 行为 。 在 我 们 的 例子 中 ， 和 希望 周 其 
任务 的 延迟 时 间 随 着 一 天 中 的 时 刻 而 改变 。 在 这 部 分 ， 你 将 学 到 如 何 实现 这 一 


折 闻 阅读 器 是 一 个 使 用 ScheduledThreadPoolExecutor 类 的 例子 ， 不 过 
牙 们 可 以 更 深入 。 与 使 用 ThreadPoolExecutor 的 情形 一 样 ， 可 以 实现 自己 的 


public class Timer { 
public static long getPeriod() { 
Calendar calendar = Calendar .getInstance(); 
int hour = calendar .get(Calendar .HOUR_OF_DAY); 


if ((hour >= 6) && (hour <= 8)) { 
return TimeUnit .MILLISECONDS.convert(1, TimeUnit.MINUTES); 
} 


if ((hour >= 13) && (hour <= 14)) { 
return TimeUnit .MILLISECONDS.convert(1, TimeUnit.MINUTES); 


} 


if ((hour >= 20) && (hour <= 22)) { 
return TimeUnit .MILLISECONDS.convert(1, TimeUnit.MINUTES); 


} 
return TimeUnit .MILLISECONDS.convert(2, TimeUnit.MINUTES); 


接 下 来 ， 还 要 实现 执行 器 的 内 部 任务 。 同 执行 器 发 送 一 个 Runnable WRAY, MAh 
部 来 讲 ， 但 是 执行 器 会 将 该 对 象 转换 成 男 一 个 任务 ， 
即 FutureTask 类 的 一 实例 ， 转 换 方 法 包括 用 于 执行 任务 的 run( ) 方法 和 用 了 
管理 任务 执行 的 Future ® 中 的 方法 。 为 了 实现 这 个 例子 ， 必 须 实现 一 个 类 用 以 
扩展 FutureTask 类 ， 而 且 因 为 将 在 预定 的 执行 器 中 执行 这 些 任 务 ， 必 须 实现 
RunnableScheduledFuture 接口 。 该 接口 提供 了 getDelay( ) 方法 ， 该 方法 
返回 了 距离 任务 下 一 次 执行 所 剩余 的 时 间 。 我 们 已 在 ExecutorTask 类 中 实现 ] 
这 些 内 部 任务 ， 该 类 有 如 下 四 个 内 部 属性 。 

s。 由 ScheduledThreadPoo1Executor 类 创建 的 初始 

RunnableScheduledFuture 内 部 任务 。 

© 执行 该 任务 的 预定 执行 器 。 

© 该 任务 下 一 次 执行 的 起 始 时 间 。 

。RSS 订 阅 的 名 称 。 
代码 如 下 所 示 。 


public class ExecutorTask<V> extends FutureTask<V> implements 
RunnableScheduledFuture<v> 


private RunnableScheduledFuture<V> task; 


private NewsExecutor executor; 


private long startDate; 


private String name; 


public ExecutorTask(Runnable runnable, V result, 
RunnableScheduledFuture<V> task, 


NewsExecutor executor) { 


super (runnable, result); 


に 


Mb, 


该 方法 在 给 定 的 时 


的 


Die: 


位 内 返回 距离 


F 务 下 次 


this.task = task; 
this.executor = executor; 
this.name=((NewsTask)runnable).getName(); 
this.startDate=new Date().getTime(); 
} 
我 们 在 该 类 中 重 载 或 者 实现 了 不 同 的 方法 。 第 一 个 是 getDelay( ) 方法 ， 如 前 所 


执行 的 剩余 时 间 。 


@Override 
public long getDelay(TimeUnit unit) { 


long delay; 
if (!isPeriodic()) { 
delay = task.getDelay(unit); 
} else { 
if (startDate == 0) { 
delay = task.getDelay(unit); 
} else { 
Date now = new Date(); 
delay = startDate - now.getTime(); 


delay = unit.convert(delay, TimeUnit.MILLISECONDS); 


return delay; 


接 下 来 是 用 于 对 比 两 个 任务 的 compareTo( ) 方法 ， 主 要 考量 这 两 个 任务 下 次 执行 
的 起 始 时 间 。 


@Override 
public int compareTo(Delayed object) { 
return Long.compare(this.getStartDate(), 
((ExecutorTask<V>)object).getStartDate()); 


true ， 人 否则 返回 false 


[Ei 


然后 ， 如 果 任 务 是 周期 性 的 ， 则 isPeriodic( ) 方法 i 


o 


@Override 
public boolean isPeriodic() { 
return task.isPeriodic(); 


54, 在 run( ) 方法 中 实现 了 eee 。 首 先 ， 调 用 FutureTask 类 的 

runAndReset( ) 方法 。 该 方法 执行 任务 并 且 重 置 其 状态 ， 这 样 任务 就 可 以 再 次 执 

行 。 然 后 ， 使 用 Timer 类 计算 下 次 执行 的 起 始 时 间 。 最 后 ， 还 要 在 

ScheduledThreadPoolExecutor 类 的 队列 中 再 次 插入 该 任务 。 如 果 不 做 最 后 
步 ， 那 么 任务 就 不 会 像 如 下 所 示 这 样 再 次 执行 。 


@Override 
public void run() { 
if (isPeriodic() && (!executor.isShutdown())) { 
super.runAndReset(); 
Date now=new Date(); 
startDate=now.getTime()+Timer.getPeriod(); 
executor.getQueue().add(this); 
System.out.printin("Start Date: "+new Date(startDate)); 
} 
} 


一 旦 有 了 面向 执行 器 的 任务 后 ， 则 必须 实现 执行 器 。 我 们 实现 了 NewsExecutor 
类 ， 用 以 扩展 ScheduledThreadPoolExecutor 类 。 我 们 重 载 了 
decorateTask() 方法 ， 有 了 该 方法 ， 就 可 以 蔡 换 预定 执行 器 使 用 的 内 部 任务 。 
上 默认 情况 下 ， 该 方法 返回 RunnableScheduledFuture 接口 的 默认 实现 ， 但 是 在 
我 们 的 例子 中 ， 它 将 返回 Executor 扩展 类 的 一 个 实例 。 


A 
A 


public class NewsExecutor extends ScheduledThreadPoolExecutor { 


} 


public NewsExecutor(int corePoolSize) { 
super(corePoolSize); 


@Override 


protected <V> RunnableScheduledFuture<V> decorateTask(Runnable 
runnable, RunnableScheduledFuture<V> task) { 
ExecutorTask<V> myTask = new ExecutorTask<>(runnable, null, 


return myTask; 


} 


task, 


this); 


现在 ， 


为 了 实现 NewsSystenm 的 其 他 版 本 ， 
实现 了 NewsAdvancedSystem 和 AdvancedMain ° 


你 可 以 运行 高 


级 新 闻 系 统 ， 


以 及 使 


RE 


HA 


44 ”有关 执行 器 的 其 他 信息 


本 章 扩 


用 NewsExecutor 的 Main 类 ， 我 们 


中 各 次 执行 之 间 延 迟 时 间 的 变化 。 


展 了 ThreadPoo1Executor 美和 ScheduledThreadPoo1Executor 


x, 井 且 重 載 」 


中 的 


方 


o PR 


ze AY È 


重 载 的 一 些 方法 


。 Shutdown( ) : 


法 ， 加 


入 一 些 人 
。 shutdownNow() : 
在 于 shutdown( ) 方法 要 等 待 执行 器 
e submit() ヽ invokea11( ) 或 者 invokeany() : 
器 发 送 并 发 任务 。 如 果 需 要 在 将 


码 释放 执行 
shutdown( ) 方法 和 


些 方法 。 但 


ERHI 


必须 显 式 调 
ar 


资源 。 


! 所 有 处 于 


闵 结束 执行 器 


shutdownNow( ) 方法 之 间 昌 


As 
付 


现 更 多 特殊 行为 ， 还 可 以 重 载 更 多 


b 可 以 重 载 该 方 


‚Bas 


的 执行 ， 


和 将 任务 插入 到 执行 


器 任务 队列 之 前 如 


状态 的 任务 全 部 终结 


以 调用 这 些 方法 


可 


之 


些 操作 ， 


BLA] LAB BOX TE 
操作 与 在 该 任务 执行 之 前 或 之 后 添 加 定制 操 人 
载 beforeExecute( ) 方 法 和 afterExecute( ) 方法 。 


。 请 注 在 任务 i 


IH 
F 是 不 同 的 ， 这 些 


FE 队 之 前 或 之 后 添加 
些 操 作 要 考虑 


在 新 闻 阅 读 器 例子 中 ， 我 们 使 用 SchedulewithFixedDelay() 方法 将 任务 发 送 
给 执行 器 。 但 是 ScheduledThreadPoo1Executor 类 还 有 其 他 一 些 方法 可 用 了 
执行 周期 性 任务 或 者 延迟 之 后 的 任务 。 
。 schedule(): 该 方法 在 给 定 延 迟 之 后 执行 某 个 任务 ， 且 该 任务 仅 执行 一 
次 。 
。 scheduleAtFixedRate(): 该 方法 按照 给 定 周期 执行 一 个 周期 性 任务 。 它 
与 schedulewithFixedDelay() 方法 的 区 别 在 于 ， 对 于 后 者 而 言 ， 两 次 执 
行 之 间 的 延迟 是 指 第 一 次 执行 结束 之 后 到 第 二 次 执行 之 前 的 时 间 ; 而 对 于 前 者 
ms. 两 次 执行 之 间 的 延迟 是 指 两 次 执行 起 始 之 间 的 时 间 。 
45 小结 
本 章 通 过 介绍 两 个 例子 探索 了 执行 器 的 高 级 特性 。 在 第 一 个 例子 中 ， 延 用 了 第 3 午 
中 客户 端 /服务 器 的 例子 。 通 过 扩展 ThreadPoo1Executor 类 实现 了 自己 的 执行 
器 ， 以 便 按 照 优先 级 执行 任务 ， 并 且 度 量 每 个 用 户 任务 的 执行 时 间 。 此 外 ， 还 引入 
了 一 种 新 的 命令 支持 任务 的 撤销 。 
在 第 二 个 例子 中 ， 解 释 了 如 何 使 用 ScheduledThreadPoolExecutor 类 执行 周 
期 性 任务 。 实 现 了 两 个 版 本 的 新 闻 阅 读 器 。 第 一 个 版 本 展示 了 如 何 使 用 


ScheduledExecutorService 的 基本 功能 , BZ MRA TU 
ScheduledExecutorService 类 的 行为 ， 例如 改变 任务 次 执行 之 间 的 延迟 时 
lH] o 


下 一 章 将 学 习 如 何 执行 返回 结果 的 Executor 任务 。 如 果 扩 展 Thread 类 或 者 实现 
Runnable 接 口 , run( ) 方法 并 不 会 返回 任何 结果 ， 但 是 包含 了 Callable 接口 
的 执行 器 框架 则 允许 实现 返回 结果 的 任务 。 


=] 


第 5 章 从 任务 获取 数据 : Callable & 
口 与 Future 接口 


在 第 3 章 和 第 4 章 中 ， 我 们 引入 了 执行 器 框架 来 改进 并 发 应 用 程序 的 性 能 ， 展示 
了 如 何 实现 高 级 特性 以 使 该 框架 适应 你 的 需求 。 在 这 两 章 中 ， 执 行 器 执行 的 所 有 任 
务 都 基于 Runnable 接口 ， 而 其 run( ) 方法 并 不 返回 值 。 然 而 ， 执 行 器 框架 也 允 
许 我 们 执行 其 他 基于 Callable 接口 和 Future 接口 返回 值 的 任务 。Callable 是 
一 种 画 数 接口 ， 它 定义 了 cal1( ) 方法 。call( ) 方法 可 以 抛 出 一 种 与 Runnable 

U 


Em 


接口 不 同 的 校 验 异常 。Callable 接口 的 处 理 结果 要 用 Future 接 口 来 打 包 , M 
Future 接口 则 描述 了 异步 计算 的 结果 。 本 章 将 讲述 下 壕 主题 。 


。Callable 接口 和 Future 接口 简介 。 
© 第 一 个 例子 : 单词 最 佳 匹 配 算法 。 
。 第 二 个 例子 : 为 文档 集 创建 倒 排 索引 o 


5.1 Callable 接口 和 Future 接口 简介 


执行 器 框架 允许 编程 人 员 执 行 并 发 任务 而 无 须 创 建 和 管理 线程 。 你 可 以 创建 任务 并 
将 其 发 送 给 执行 器 ， 而 执行 器 负责 创建 和 管理 所 需 的 线程 。 


在 执行 器 中 ， 你 可 以 执行 两 种 任务 。 

. en 接口 的 任务 : 这 些 任务 实现 了 不 返回 任何 结果 的 run( ) 方 
. Eroak 接口 的 任务 : 这 些 任 务实 现 了 返回 某 个 对 象 作 为 结果 的 
ca11( ) 接 口 * ca11( ) 方法 返回 的 具体 类 型 由 Callable 接口 的 泛 型 参数 指 


定 。 为 了 获取 该 任务 返回 的 结果 ， 执 行 器 会 为 每 个 任务 返回 一 个 Future 接 
的 实现 。 


在 前 面 的 几 章 中 ， 你 了 解 了 如 何 创建 执行 器 ， 如 何 基 于 Runnable 接口 向 执行 器 发 
送 任务 ， 以 及 如 何 个 性 化 定制 执行 器 以 适应 你 的 需求 。 本 章 ， 你 将 学 习 如 何 基于 
Callable 接口 和 Future 接口 来 与 任务 打交道 。 


5.1.1 Callable 接口 


Callable 接口 是 一 个 与 Runnable 接口 非常 相似 的 接口 。callable 接口 的 主 
要 特征 如 下 。 


。 它 是 一 个 通用 接口 。 它 有 一 个 简单 类 型 参数 ， 与 call( ) 方法 的 返回 类 型 相对 


。 它 声明 了 call( ) 方法 。 执 行 器 运行 任务 时 ， 该 方法 会 被 执行 器 执行 。 它 必须 
返回 声明 中 指定 类 型 的 对 象 。 


・ call() WEA DI Ea 


afterExe 


5.1.2 Futur 


PS 


Mal 


EEN 


cute() 方 法 来 
e 接口 


制 人 


丸 行 器 发 送 一 个 CaLllLable $ 
ES WET AA 
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F 务 时 ， 它 将 为 你 返回 


FE 务 状态 ， 使 你 能 够 获取 结果 


Hcance1( ) 方法 来 撤销 


SZ 
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需要 在 
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HE 
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He 


数 ， 当 任务 
UT, 


E 务 运行 
务 是 否 已 被 撤销 ( 
sDone() 方法 ) 。 
Hget( ) ER 


期 


LL o 


断 任务 


di 


间 


校 验 异常 。 你 可 以 实现 自 
处 理 这 些 异常 


回 一 个 Future 接 


己 的 执行 器 3 


。 该 接 


王 务 的 执行 。 该 方法 有 一 个 布 
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主要 特 


sCance11ed( ) 方法 
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司 
F 将 线程 等 待 的 时 


期 和 该 周 


该 方法 就 会 抛 H 


WAR 


的 
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辣 周 


meUnit 


ENB BOR RIK > WA 


H—4*TimeoutException + 


(时 间 单 位 ) 


行 完毕 。 


。 该 变 体 与 


第 一 个 例子 : 单词 最 佳 匹 配 算法 


词 最 佳 匹配 算法 的 主要 目标 是 找 
算法 ， 需 要 做 如 下 准备 。 


与 作为 参数 的 字 


ロ 


符 串 


周 


这 一 


于 


Ft 


= 符 


Hr 


HE 


・ 第 一 个 操作 
。 第 二 个 操作 
列 。 如 果 我 


字 游 戏 社区 


壬 序列 的 差异 。 
进行 的 最 少 的 插入 、 其 
F“Levenshtein distance” 的 解释 ， 


Hg 
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LevenshteinDistance %: 
BestMatchingData 类 : 


版 本 和 


ER 


使用 
的 Na 
用 于 评估 两 个 单词 之 间 相 似 度 的 指标 : 


Levenshtein} 


y 


E] 
#250 35 
我 们 使 


E 


高 级 疑难 词典 


3 个 


期 结 


BE o 


最 相似 的 单 


(UKACD) 4 


词 。 


的 
+ 


词 和 


E 离 是 指 ， 
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UKACD 在 文件 


的 WordsLoader 类 在 接收 到 单 i 


个 单词 的 字符 
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LevenshteinDistance 类 实现 了 calculate() 方法 ， 该 方 个 字符 串 
对 象 作为 参数 ， 并 且 返 回 一 个 int 值 来 表示 两 个 单词 之 间 的 距离 。 分 类 操作 的 
代码 如 下 。 


public class LevenshteinDistance { 


public static int calculate (String string1, String string2) { 
int[][] distances=new 
int[string1.length()+1][string2.length()+1]; 


for (int i=1; i<=string1.length();i++) £ 
distances[i][0]=i; 


for (int j=1; j<=string2.length(); j++) { 
distances[0][j]=3; 


for(int i=1; i<=string1.length(); i++) £ 
for (int j=1; j<=string2.length(); j++) { 

if (string1.charAt(i-1)==string2.charAt(j-1)) て 
distances[i][j]=distances[i-1][j-1]; 

} else { 
distances[i][j]=minimum(distances[i-1][j], 

distances[i][j-1],distances[i-1][j-1])+1; 
} 


} 
} 


return distances[string1.length()][string2.length()]; 


private static int minimum(int à, int j, int k) { 
return Math.min(i,Math.min(j, k)); 


BestMatchingData 类 只 有 两 个 属性 : 一 个 用 于 存储 单词 列表 的 字符 串 对 象 列 
表 ， 以 及 一 个 名 为 distance 的 整 型 属性 ， 该 属性 存放 了 这 些 单词 与 输入 字符 串 之 
间 的 距离 。 
5.22 ”最 佳 匹 配 算法 : 串 行 版 本 
首先 ， 我 们 将 实现 最 佳 匹配 算法 的 串 行 版 本 。 我 们 将 使 用 该 版 本 作为 并 发 版 本 的 起 
a O 个 版 本 的 执行 时 间 ， 以 此 来 验证 并 发 处 理 是 否 可 以 帮助 我 们 获得 
更 好 的 性 能 。 
我 们 在 下 面 两 个 类 中 实现 了 最 佳 匹配 算法 的 串 行 版 本 。 
e BestMatchingSerialCalculation 类 ， 用 于 计算 与 输入 字符 串 最 相似 的 
单词 的 列表 o 
。BestMatchingSerialMain 类 ， 其 包含 mnain( ) 方法 ， 它 用 于 执行 算 
法 、 测 量 执行 时 间 并 且 在 控制 台 显 示 结 果 。 
让 我 们 分 析 一 下 以 上 两 个 类 的 源 代码 。 
a. BestMatchingSerialCalculation 类 
该 类 只 有 一 个 名 为 getBestMatchingwords( ) 的 方法 ， 该 方法 接收 两 个 参 
数 : 一 个 作为 参照 的 有 序 字 符 串 ， 以 及 含有 字 二 所 有 单词 的 字符 串 对 象 列 
表 。 该 方法 返回 一 个 BestMatchingData 对 象 ， 其 中 含有 算法 执行 结 


public class BestMatchingSerialCalculation { 


public static BestMatchingData getBestMatchingWords(String 
word, List<String> dictionary) { 
List<String> results=new ArrayList<String>(); 
int minDistance=Integer.MAX VALUE; 
int distance; 


在 内 部 变量 完成 初始 化 之 后 


E 224% Ea 


£ 
的 


， 算 法 处 理 字典 中 的 所 有 单词 ， 计 算 这 些 


照 字符 串 之 间 的 Levenshtein 距 离 。 如 果 针 对 一 个 单词 j 
小 距离 更 小 


= 


j 一 个 单词 计算 得 到 的 距离 
那么 我 们 将 清空 结果 列表 并 且 将 该 单词 存放 


个 


玄 单 词 存 放 在 列表 


F。 如 果 针对 


TIL (SP SEPN 


To 


那么 将 该 单词 添加 到 


for (String str: dictionary) { 
distance=LevenshteinDistance.calculate(word, str); 
if (distance<minDistance) { 
results.clear(); 
minDistance=distance; 
results.add(str); 
} else if (distance== 


minDistance) { 
results.add(str); 
} 


} 


BUA, 倒 建 BestMatchingData 対象 来 返 


o 


二 法 结 A Pes 


BestMatchingData result=new BestMatchingData(); 
result.setwords(results); 
result.setDistance(minDistance) ; 

return result; 


B. BestMachingSerialMain & 


该 类 是 本 例 的 主 类 。 它 加 载 UKACD 文 件 ， 调 


HgetBestMatchingwords( ) 
方法 〈 该 方法 以 接收 到 的 字符 串 作 为 参数 ) ， 然 后 在 


控 制 MI 示 结 
执行 时 间 。 可 参看 如 下 代码 。 


以 及 


法 


public class BestMatchingSerialMain { 


public static void main(String[] args) { 


Date startTime, endTime; 
List<String> dictionary=wordsLoader.load("data/UK Advanced 


System.out.printin("Dictionary Size: "+dictionary.size()); 


startTime=new Date(); 

BestMatchingData result= BestMatchingSerialCalculation 
.getBestMatchingwords 
(args[0], dictionary); 


Cryptics Dictionary.txt"); 


List<String> results=result.getwords(); 

endTime=new Date(); 

System.out.printin("word: "+args[0]); 

System.out.printin("Minimum distance: " +result.getDistance()); 

System.out.printin("List of best matching words: " 
+results.size()); 

results.forEach(System.out::println); 

System.out.printin("Execution Time: "+(endTime.getTime()- 
startTime.getTime())); 


y 


在 此 ， 我 们 使 用 Java 8 语言 提供 的 一 种 名 叫 方 法 引用 (method reference) 的 新 
构造 ， 以 及 用 于 输出 结果 的 新 方法 List,.forEach()。forEach( ) 方法 是 
末端 操作 ， 对 所 有 元 素 会 有 次 生效 应 。 


5.2.3 ”最 佳 匹 配 算法 : 第 一 个 并 发 版 本 


我 们 实现 了 两 个 并 发 版 本 的 最 佳 匹 配 算法 。 第 一 个 版 本 基于 Callable 接口 ， 以 及 
在 AbstractExecutorService 接口 中 定义 的 submit() Wik ° 


我 们 采用 下 面 三 个 类 来 实现 这 一 版 本 的 算法 。 


。BestMatchingBasicTask 类 : 该 类 执行 那些 实现 callable 接口 并 且 将 在 
执行 器 中 执行 的 任务 。 

。BestMatchingBasicCconcurrentCcalculation É: 该 类 创建 了 执行 器 和 
必要 的 任务 ， 并 且 将 任务 发 送 给 执行 器 。 

e BestMatchingConcurrentMain É: 该 类 实现 了 main( ) 方法 ， 执 行 算法 

并 且 在 控制 台 显 示 结 果 。 


让 我 们 看 看 这 些 类 的 源 代码 。 
a. BestMatchingBasicTask 类 


正如 前 面 提 到 的 ， 该 类 将 实现 获取 最 佳 匹配 单词 列表 的 任务 。 该 任务 将 实现 采 
HBestMatchingData 美 参 数 化 的 Ca11ab1e 接口 。 这 意味 着 该 类 将 实现 
cal1() 方法 ， 而 该 方法 将 返回 一 个 BestMatchingData 対象 


每 个 任务 处 理 一 部 分 字典 ， 并 且 返 回 这 一 部 分 字典 获得 的 结果 。 我 们 用 到 了 如 
下 四 个 内 部 属性 o 


王 务 要 分 析 的 这 一 部 分 字典 的 起 始 位 置 (包含 ) ・ 
。 任 务 要 分 析 的 这 一 部 分 字典 的 结束 位 置 (不 包含 ) ・ 
・ 以 字 符 申 対 象 列表 形式 表示 的 字典 ・ 
。 参 照 输入 字符 串 。 


代码 如 下 。 


o 


public class BestMatchingBasicTask implements Callable 
<BestMatchingData > { 
private int startIndex; 
private int endIndex; 
private List < String > dictionary; 
private String word; 


public BestMatchingBasicTask(int startIndex, int endIndex, 
List < String > dictionary, String word) 


~ 


startIndex = startIndex; 


this. 
this.endIndex = endIndex; 
this.dictionary = dictionary; 


this.word = word; 


To 


call() 方法 处 理 startIndex MendIndex 属性 值 之 间 的 所 有 单词 ， 

计算 这 些 单词 与 输入 字符 串 之 间 的 Levenshtein 距 离 。 该 方法 仅 返 回 与 输入 字符 
串 最 接近 的 单词 。 如 果 在 此 过 程 中 它 找到 了 比 前 一 个 单词 更 加 接近 的 单词 ， 将 
清空 结果 列表 并 且 将 新 单词 加 入 到 该 列表 中 。 如 果 找 到 一 个 与 当前 查找 结果 距 
离 相同 的 单词 ， 那 么 就 将 该 单词 加 入 到 结果 列表 中 ， 如 下 所 示 。 

@override 


if (distance<minDistance) { 


results.clear(); 


minDistance=distance; 
results.add(dictionary.get(i)); 


public BestMatchingData call() throws Exception { 
List<String> results=new ArrayList<String>(); 
int minDistance=Integer.MAX VALUE; 
int distance; 
for (int i=startIndex; i<endIndex; i++) { 
distance = LevenshteinDistance.calculate(word, dictionary.get(i)); 


} else if (distance==minDistance) { 
results.add(dictionary.get(i)); 
} 
} 
最 后 ， 我 们 创建 一 个 BestMatchingData 对 象 并 且 返回 该 对 象 ， 该 对 象 中 含 
有 碍 找到 的 单词 列表 以 及 这 些 单词 与 输入 字符 串 之 间 的 距离 。 


return result; 


BestMatchingData result=new BestMatchingData(); 
result.setwords(results); 
result.setDistance(minDistance) ; 


7£F Runnable 接口 的 任务 之 间 的 主要 差别 在 于 ， 方 法 中 最 后 一 行 的 返回 语 
句 。run( ) 方法 并 不 返回 值 ， 因 此 那些 任务 都 无 法 返回 值 。 而 call( ) 方法 可 
le (该 对 象 的 类 在 其 实现 语句 中 定义 ) ， 因 而 这 种 类 型 的 任务 可 以 
返 思 Za o 


. BestMatchingBasicConcurrentCalculation É 


该 类 负责 为 处 理 整个 词典 


行 器 


"控制 这 些 任务 的 


该 类 
数 : 


用 


o 


有 完整 单词 列表 的 字典 和 参 


AZ =) 


Di BG SF AF BR 


创建 必需 的 任务 、 执 行 这 些 人 有 


クー 


只 有 人 且 


EF 务 的 执行 器 ， 


在 执 


该 方法 有 两 个 输入 参 


o 该 方法 


RE 


个 合 有 算法 


执行 结果 


的 BestMatchingData WR ° HH, 我 们 创建 初始 化 该 执行 器 。 我 们 将 机 
器 的 核 数 作为 在 此 使 用 的 最 大 线程 数 。 看 一 看 下 面 这 个 代码 块 。 


public class BestMatchingBasicConcurrentCalculation { 


public static BestMatchingData getBestMatchingwords(String 
word, List<String> dictionary) throws InterruptedException, 
ExecutionException { 


int numCores = Runtime.getRuntime().availableProcessors(); 


ThreadPoolExecutor executor = (ThreadPoolExecutor) 
Executors.newFixedThreadPool(numCores) ; 


lu 


然后 ， 我 们 计算 每 个 任务 要 处 理 的 那 部 分 字典 的 规模 ， 创建 一 个 Future 
对 象 列表 来 存储 这 些 任 务 的 结果 。 当 你 将 一 个 基于 Callable 接口 的 任务 发 送 
给 执行 器 时 ， 将 得 到 Future 接口 的 一 个 实现 。 你 可 以 使 用 该 对 象 进行 如 下 操 
作 。 


qu 
o 


。 了 解 任务 是 否 已 经 执行 。 
。 获 取 任 务 执行 的 结果 (ca11( ) 方 法 返 回 的 対象 ) 。 


。 撤销 任务 的 执行 。 
ASA T: 


int size = dictionary.size(); 

int step = size / numCores; 

int startIndex, endIndex; 

List<Future<BestMatchingData>> results = new ArrayList<>(); 


然后 ， 我 们 创建 这 些 任务 ， 使 用 submit( ) 方法 将 其 发 送 给 执行 器 ， 将 该 
方 法 返 回 的 Future 对 象 添加 到 Future 対象 列表 ・submit( ) 方法 会 立即 返 
本， 它 并 不 会 一 直 等 待 任务 执行 。 我 们 有 如 下 代码 。 


for (int i = 0; i < numCores; i++) { 
startIndex = i * step; 


if (i == numCores - 1) { 
endIndex = dictionary.size(); 
} else { 


endIndex = (i + 1) * step; 


} 
BestMatchingBasicTask task = new BestMatchingBasicTask(startIndex, 
endIndex, dictionary, word); 


Future<BestMatchingData> future = executor.submit(task); 
results.add(future); 


我 们 把 任务 发 送 给 执行 器 后 ， 可 以 调用 执行 器 的 shutdown( ) 方法 来 结束 其 
执行 ， 并 且 对 Future 对 象 列表 执行 类 代 操作 以 获得 每 个 任务 的 执行 结果 。 我 
们 使 用 不 带 任何 参数 的 get ( ) 方法 。 如 果 任 务 执行 结束 ， 则 该 方法 返 臣 


call() 方法 返回 的 对 象 。 如 果 任 务 尚未 结束 ， 该 方法 会 通过 当前 线程 将 调 
线程 置 为 休 眼 状态 ， 直 到 任务 执行 结束 并 且 可 获得 结果 为 止 。 


我 们 将 任务 的 结 末 组 合成 一 个 结果 列表 ， 这 样 跌 可 以 仅 返 回 与 参照 字符 串 距 离 
最 近 的 单词 的 列表 ， 如 下 所 示 ， 


a 


ME 


executor . shutdown( ) ， 

List<String> words=new ArrayList<String>(); 

int minDistance=Integer.MAX VALUE; 

for (Future<BestMatchingData> future: results) { 
BestMatchingData data=future.get(); 

if (data.getDistance()<minDistance) { 

words.clear(); 

minDistance=data.getDistance(); 

words.addAll(data.getWords()); 

else if (data.getDistance()==minDistance) { 

words.addAll(data.getWords()); 


こつ 


最 后 ， 我 们 创建 并 返回 一 个 BestMatchingData 对 象 ， 其 中 含有 算法 执行 结 
果 o 


BestMatchingData result=new BestMatchingData(); 
result.setDistance(minDistance); 
result.setwords(words); 

return result; 


0 BestMatchingConcurrentMain 类 和 前 面 介绍 的 
BestMatchingSerialMain 类 非常 相似 。 唯 一 的 差别 是 所 用 的 类 不 同 
(使 用 BestMatchingBasicCconcurrentcalculation 类 代替 
BestMatchingSerialCalculation ) ， 所 以 此 处 没有 给 出 其 源码 。 
注意 ， 当 并 发 任务 工作 于 各 个 独立 的 数据 片 之 上 时 ， 我 们 既 没 有 采用 线 
程 安全 的 数据 结构 ， 也 没有 使 用 同步 机 制 ， 而 是 当 并 发 任务 执行 完毕 后 以 
顺序 方式 来 合并 最 终结 果 。 


5.2.4 LMA: 第 二 个 并 发 版 本 


我 们 使 用 AbstractExecutorService ( 在 ThreadPoo1ExecutorC1]ass 
中 实现 ) 的 invokeA11( ) 方法 实现 了 最 佳 匹配 算法 的 第 二 个 版 本 。 在 前 一 个 
版 本 中 我 们 使 用 了 submit( ) 方法 ， 该 方法 接收 一 个 callable 对 象 作 为 参 
数 ， 并 返回 一 个 Future 対象 > invokeA11( ) 方法 接收 一 个 callable 対象 
列表 作为 参数 ， 并 且 返 回 一 个 Future 对 象 列表 。 其 中 第 一 个 Future 対象 和 
第 一 个 callable 对 象 相 关联 ， 以 此 类 推 。 这 两 个 方法 之 间 还 有 另 一 个 重要 区 
Ale REsubmit() 方法 可 立即 返回 ， 但 是 invokeA11( ) 方法 仅 当 所 有 
Callable 任务 都 终止 执行 时 才 返 回 。 这 意味 着 如 果 你 调用 了 isDone( ) 方 
法 ， 那 么 所 有 返回 的 Future 对 象 都 会 返回 true > 


al 
as 
| 


要 实现 该 版 本 的 程序 ， 我 们 使 用 了 在 前 面 例子 中 实现 的 
BestMatchingBasicTask 类 ， 并 且 实 现 了 
BestMatchingAdvancedConcurrentCalculation 类 。 该 类 与 
BestMatchingBasicConcurrentTask 类 的 区 别 在 于 任务 的 创建 和 对 结果 


上 。 在 任务 创建 方面 ， 现 在 我 们 创建 一 个 列表 并 且 用 它 存 放 我 们 要 执行 
J 


for (int i = 0; i < numCores; i++) { 
startIndex = i * step; 


if (i == numCores - 1) { 
endIndex = dictionary.size(); 
} else { 


endIndex = (i + 1) * step; 


BestMatchingBasicTask task = new BestMatchingBasicTask(startIndex, 


endIndex, dictionary, word); 
tasks.add(task); 


} 


为 了 处 理 结果 ， 我 们 调用 invokeAL1( ) 方法 并 且 之 后 遍历 返回 的 Future 对 
象 列表 。 


results = executor.invokeAll(tasks); 

executor.shutdown(); 

List<String> words = new ArrayList<String>(); 

int minDistance = Integer.MAX VALUE; 

for (Future<BestMatchingData> future : results) { 

BestMatchingData data = future.get(); 

if (data.getDistance() < minDistance) { 
words.clear(); 
minDistance = data.getDistance(); 
words.addAll(data.getwords()); 

} else if (data.getDistance()== minDistance) { 
words.addAll(data.getwords()); 


BestMatchingData result = new BestMatchingData(); 
result.setDistance(minDistance); 
result.setwWords(words); 

return result; 


为 执行 该 版 本 的 代码 ， 我 们 还 实现 了 
BestMatchingConcurrentAdvancedMain 类 。 该 类 的 源码 与 前 一 个 例子 
! (BestMatchingConcurrentMain) 的 代码 非常 类 似 ， 此 处 不 再 给 出 。 


5.2.5 ”单词 存在 算法 FARA 


本 例 中 ， 我 们 实现 了 另 一 个 操作 来 检查 一 个 字符 串 是 否 在 我 们 的 单词 列表 中 。 
为 检查 一 个 单词 是 否 存在 ， 我 们 要 再 次 用 到 Levenshtein 距 离 。 我 们 认为 ， 如 果 
列表 中 存在 某 个 单词 ， 那 么 该 单词 与 列表 中 的 某 一 单词 之 间 的 距离 为 0。 使 用 
equals() 方法 或 者 equalsIgnoreCase( ) 方法 做 对 比 会 更 加 快捷 ， 或 者 
可 将 输入 单词 读 入 到 一 个 HashSet 中 并 使 用 contains ( ) 方法 (这 比 我 们 的 
版 本 更 加 高 效 ) ,但 是 这 里 假定 我 们 的 版 本 更 加 适合 本 书 的 o 


正如 前 面 的 例子 ， 首 移 ， 我 们 实现 该 操作 的 串 行 版 本 ， 将 其 作为 基础 来 实现 并 


发 版 本 ， 然 后 再 对 比 这 两 个 版 本 的 执行 时 间 。 
实现 捉 行 版 程序 时 ， 要 用 到 如 下 两 个 类 。 


让 我 们 分 析 一 下 这 两 个 类 的 源 代码 。 


ExistSerialCalculation 类 : 该 类 分 Mexistword( ) 方法 来 比较 
输入 字符 串 和 字典 中 的 所 有 单词 ， 直 到 找到 该 单词 为 止 。 


ExistSerialMain 类 : 该 类 自动 本 例 并 度量 执行 时 间 。 


< 


a. ExistSerialCalculation 类 


该 类 只 有 一 个 方法 ， 就 是 existWord( ) 方法 。 该 方法 接收 两 个 参数 : 我 
门 要 查找 的 单词 与 完整 的 单词 列表 。 该 方法 查找 整个 列表 ， 计 算 输 入 单词 
和 列表 ene 之 賠 的 Levenshtein 距 高 , 到 找到 满足 条 件 的 单词 距 
BAO) 为 止 ， 这 种 情况 下 该 方法 返回 true 值 ， 或 者 当 结 束 对 单词 列表 
的 查找 时 没 ;找到 词 ， 此 时 该 方法 返回 false 值 。 参 见 如 下 代码 块 : 


public class ExistSerialCalculation { 


public static boolean existWord(String word, List<String> 
dictionary) { 
for (String str: dictionary) { 
if (LevenshteinDistance.calculate(word, str) == 0) { 
return true; 


return false; 


ß. ExistSerialMain & 


该 类 实现 了 main( ) 方法 ， 并 在 其 中 调用 了 existword() 方法 。 该 类 将 
main() 方法 的 第 一 个 参数 作为 我 们 要 查找 的 单词 ， 并 且 调 用 

existWord() 方法 进行 查找 。 该 类 还 度量 其 执行 时 间 并 在 控制 台 显示 结 
果 。 我 们 给 出 下 述 代 码 。 


public class ExistSerialMain { 


public static void main(String[] args) { 

Date startTime, endTime; 

List<String> dictionary=wordsLoader.load("data/UK Advanced 
Cryptics Dictionary.txt"); 


System.out.println("Dictionary Size: "+dictionary.size()); 


startTime=new Date(); 

boolean result=ExistSerialCalculation.existwWord(args[0], 
dictionary); 

endTime=new Date(); 


System.out.printin("word: "+args[0]); 

System.out.printin("Exists: "+result); 

System.out.printin("Execution Time: "+(endTime.getTime()- 
startTime.getTime())); 

} 


5.2.6 单词 存在 算法 ， 并行 版 本 


要 实现 这 一 操作 的 并 发 版 本 ， 我 们 要 考虑 其 最 重要 的 特征 ， 不 需要 处 理 整 个 


词 列表 。 找 到 符合 条 件 的 单词 时 ， 就 可 以 完成 该 列表 的 处 理 


日 返 口 tE E 


一 操作 并 不 处 理 整 个 输入 数据 ， 而 是 满足 某 个 条 件 时 就 会 停止 ， 这 也 叫 作 短 


(short-circuit) 操作 < 


AbstractExecutorService 接口 定义 了 一 个 可 适应 上 述 想 法 的 操作 (在 


ThreadPoo1Executor 类 中 实现 ) , Elinvokeany() 方法 。 FR 


條 Ca11ab1e 任务 列表 作为 参数 ， 并 且 将 其 发 送 给 执行 器 ， 


法 抛 出 一 个 ExecutionException 异常 。 


然后 返回 第 一 
成 执行 且 没有 抛 出 异常 的 任务 作为 结果 。 如 果 所 有 任务 都 抛 出 了 异常 ， mE 


FE 如 前 面 的 例子 所 示 ， 为 实现 该 版 本 的 算法 我 们 还 实现 了 如 下 这 些 类 。 


e ExistBasicTask 类 实现 了 我 们 将 要 在 执行 器 中 执行 的 任务 。 


e ExistBasicConcurrentCalculation 类 创建 了 执行 器 和 任 


将 任务 发 送 给 执行 器 。 


2 


e ExistBasicConcurrentMain 类 用 于 执行 示例 并 且 度 量 其 运行 时 间 。 


e ExistBasicTasks 类 


该 类 实现 了 搜索 单词 的 任务 。 它 实现 了 以 布尔 类 参数 化 的 Callable 接 


口 。 如 果 有 任务 找到 了 单词 ， 则 其 cal1( ) 方法 将 返回 true 值 。 该 类 使 用 


了 如 下 四 个 内 部 属性 。 


o 完整 的 单词 列表 。 

o 任务 将 在 列表 中 处 理 的 第 一 个 单词 (包括 ) 。 

o 任务 将 在 列表 中 处 理 的 最 后 一 个 单词 ( 不 包括 ) 。 
o 任务 要 查找 的 单词 。 


我 们 有 如 下 代码 。 


private int startIndex; 

private int endIndex; 

private List<String> dictionary; 
private String word; 


public ExistBasicTask(int startIndex, int endIndex, 


this.startIndex=startIndex; 
this.endIndex=endIndex; 
this.dictionary=dictionary; 
this.word=word; 


public class ExistBasicTask implements Callable<Boolean> { 


List<String> dictionary, String word) { 


call 方法 将 遍历 分 配给 该 任务 的 那 部 分 列表 ， 计 算 输入 单词 和 这 部 分 列 


true 值 。 


表 中 各 单词 之 间 的 Levenshtein 距 离 。 如 果 找 到 了 该 单词 ， 


那么 它 将 返回 


WIRES MES ot Be EP ZEHRA A 


Ea), BLA 


: = 


将 抛 出 一 个 异常 以 适应 jnvokeAny() EME « 在 这 


AH IS 


该 任务 返回 了 false 值 ，invokeAny( ) 方法 将 返回 falsef 
的 任务 。 也 许 另 一 个 任务 会 找到 该 单词 。 


代码 如 下 所 示 。 


vir, 405 
而 无 须 等 待 剩 下 


@Override 
public Boolean call() throws Exception { 
for (int i=startIndex; i<endIndex; i++) { 


return true; 


} 


if (Thread.interrupted()) { 
return false; 


throw new NoSuchElementException("The word "+word+" 
doesn't exists."); 


if (LevenshteinDistance.calculate(word, dictionary.get(i))==0) { 


e ExistBasicConcurrentCalculation 类 


en 搜索 输入 单词 的 过 程 ， 创 建 并 执行 必要 的 
。 该 类 仅仅 实现 了 一 个 名 为 existword ( ) 的 方法 。 该 方法 接收 两 个 


3 „MAT 符 串 和 完整 的 单词 列表 ， 并 且 返 回 一 个 布尔 值 ， 以 表明 单词 是 
先 ， 创 建 执行 器 来 执行 这 些 任务 。 我 们 使 用 Executor 类 并 且 创 建 一 个 
ThreadPoolExecutor 类 ， 该 类 的 最 大 线程 数 计算 机 的 可 用 硬件 线 和 


数 決定 , 如 下 所 示 : 


public class ExistBasicConcurrentCalculation { 


public static boolean existWord(String word, List<String> 
dictionary) 


throws InterruptedException, 
ExecutionException{ 
int numCores = Runtime.getRuntime().availableProcessors(); 
ThreadPoolExecutor executor = (ThreadPoolExecutor) 
Executors.newFixedThreadPool(numCores) ; 


RE, HUE SHUT EET EES © EMEA 
司 等 的 一 部 分 。 我 们 创建 这 些 任务 并 且 将 其 存放 在 一 个 列表 


TH 
o 


St 

x 
Ur 
O 


单词 


int size = dictionary.size(); 

int step = size / numCores; 

int startIndex, endIndex; 

List<ExistBasicTask> tasks = new ArrayList<>(); 


for (int i = 0; i < numCores; i++) { 
startIndex = i * step; 


if (i == numCores - 1) 
endIndex = dictionary.size(); 
} else { 
endIndex = (i + 1) * step; 


ExistBasicTask task = new ExistBasicTask(startIndex, endIndex, 
dictionary, word); 


tasks.add(task); 


RE, 使用 invokeAny( ) 方法 在 执行 器 中 执行 这 些 任务 。 如 果 该 方法 返 


可 一 个 布尔 值 ， 则 单词 存在 ， 就 返回 该 值 。 如 果 该 方法 抛 出 异常 ， 则 单词 


不 存在 ， 我 们 就 在 控制 台 打 印 异常 并 且 返 回 false 值 。 这 两 种 情况 下 ， 我 们 


都 调 执行 器 的 shut down( ) 方法 来 结束 其 执行 ， 如 下 所 示 : 


try { 
Boolean result=executor.invokeAny(tasks); 
return result; 
} catch (ExecutionException e) { 
if (e.getCause() instanceof NoSuchElementException) 
return false; 
throw e; 
} finally { 
executor.shutdown(); 


除 了 使 用 shutdown( ) 方法 ， 我 们 还 可 以 使 用 shutdownNow( ) 方 法 
这 两 个 方法 之 间 的 主要 区 别 在 于 ，shutdown( ) 方法 在 终止 执行 器 执行 
之 前 会 执行 所 有 待 执行 任务 ， 而 shutdownNow( ) 方法 则 不 再 执行 待 执行 
任务 。 


ExistBasicConcurrentMain 类 


该 类 实现 了 本 例 中 的 main( ) 方法 。 它 和 ExistSerialMain 类 相当 ， 唯 
一 的 区 别 在 于 它 使 用 了 ExistBasicConcurrentcalculation KA 
代 ExistSerialcalculation ， 因 此 这 里 不 再 介绍 其 源 代码 。 


5.2.7 ”对 比 解决 方案 


们 比较 一 下 在 本 节 实 现 的 两 个 操作 的 不 同 解决 方案 (EB 行 和 并 行 ) 。 我 们 
JMH 框 架 (请 查看 名 为 “Code Tools: jmh” 的 文章 ) 执行 这 些 示 例 ， 该 框架 


米 
人 允许 你 用 Java 实 现 微型 基准 测试 。 使 用 一 个 面向 基准 测试 的 框架 是 比较 好 的 解 


案 ， 它 直接 用 currentTimeMilLlis() 方法 或 者 nanoTime( ) 方法 来 度 
司 。 我 们 在 两 种 不 同 的 架构 上 分 别 执行 这 些 示 例 10 次 。 

一 台 计 算 机 配置 了 Intel Core i5-5300 处 理 器 、Windows 7 操作 系统 和 16GB 
HIRAM 。 该 处 理 器 有 两 个 ， 且 每 个 核 可 以 执行 两 个 线程 ， 这 样 我 们 就 有 
四 个 并 行 线程 。 


另 一 台 计 算 机 配置 了 AMD A8-640 处 理 器 、Windows 10 操 作 系 统 和 8GB 的 
RAM。 该 处 理 器 有 四 个 核 。 


最 佳 匹配 算法 
在 本 例 中 ， 我 们 实现 了 该 算法 的 三 个 版 本 。 


o BITHA ° 
o 并 行 版 本 ， 一 次 发 送 一 个 任务 。 
o 電 行 版本 , 使用 invokeA11( ) 方 法 
为 了 测试 该 算法 ， 我 们 用 到 了 单词 列表 中 不 存在 的 三 个 字符 串 。 
o Stitter ° 
o Abicus º 
o Lonx º 
下 面 是 最 佳 匹 配 算法 为 上 述 每 个 单词 返回 的 单词 列表 。 
o Stitter: sitter 、Skitter ‘slitter >spitter ` 


stilter ヽ stinter >stotter > stutter 和 titter > 


o Abicus: abacus 和 amicus > 
o Lonx: lanx ヽ 1one ‘long * lox fllynx > 
平均 执行 时 间 及 其 标准 偏差 以 毫秒 为 单位 ， 如 下 表 所 示 。 
算法 Intel 架 构 AMD 架 构 
Stitter | Abicus Lonx Stitter | Abicus Lonx 
串 行 版 414.56 |376.34 |296.81 |708.98 |633.61 |467.03 
井 行 版 submt() 方法 229.56 |217.76 |173.89 |361.97 |299.26 | 233.22 
并 行 版 invokeAl1() 方法 257.31 |225.82 |171.98 |333.93 |324.08 |250.06 
我 们 可 以 得 出 下 面 的 结论 * 

o 在 两 种 架构 上 ， 该 该 算法 的 并 行 版 本 的 性 能 都 要 比 串 行 版 本 好 。 

o 该 算法 的 而 个 并 行 版 本 取得 了 相似 的 结果 。 我 们 可 以 使 用 加 速 比 来 比 
较 在 查找 单词 Lonx 时 并 发 版 本 和 串 行 版 本 的 执行 速度 ， 由 此 来 观察 并 
发 处 理 如 何 提升 算法 的 性 能 o 

Tretia 467.03 
CU Ts ES 
_ Teerial 296.81 - 
SIntel = T, cia 一 en ー = 1:72 
concurrent i „I 
存在 算法 
在 本 例 中 ， 我 们 实现 了 该 算法 的 两 个 版 本 。 
。 串 行 版 本 。 
o 電 行 版本 , 使用 invokeAny( ) 方法 。 
为 了 测试 该 算法 ， 我 们 用 到 了 一 些 字符 串 。 

。 单 词 列 表 中 不 存在 的 字符 串 xyzt ・ 

o 在 接近 单词 列表 末端 处 的 字符 串 stutter < 

o 在 接近 单词 列表 起 始 处 的 字符 串 abacus 。 

o 在 单词 列表 刚刚 后 一 半 位 置 处 的 字符 串 1ynx 。 

以 训 秒 为 单位 的 平均 执行 时 间 如 下 表 所 示 。 
算法 Intel 架 构 AMD 架 构 
单词 执行 时 间 (毫秒 ) 单词 执行 时 间 (毫秒 ) 
串 行 版 abacus 69.79 abacus 94.59 


lynx 148.46 lynx 292.86 

stutter 336.61 stutter 592.102 

xyzt 280.93 xyzt 452.53 

abacus 73.28 abacus 76.27 
= lynx 100.51 lynx 110.51 

并 行 版 
Stutter 154.63 Stutter 186.28 
xyzt 178.33 xyzt 270.37 


我 们 可 以 得 出 下 面 的 结论 。 


通常， 该 算法 的 并 发 版 本 可 比 串 行 版 本 提供 更 好 的 性 能 。 
o 单词 在 列表 中 的 位 置 是 一 个 关键 因素 。 对 于 单词 abacus 来 说 ， 它 位 
十 虽 词 列表 的 起 如 位 置 ， 这 两 个 版 本 算法 的 执行 时 间 相似 ; 但 是 对 了 
单词 stutter 来 说 ， 二 者 的 差别 就 很 大 了 


更 用 加 速 比 来 比较 并 发 版 和 串 行 版 查找 单词 Lynx 的 速度 ， 可 得 到 如 下 结 
果 o 
S o Tserial = 292.86 o っ と 
ee Teoncurrent ー 110.51 en 
Toeri 148.46 
Sinte p= La 40 


Teo meurrent ~ 100.51 


5.3 e RATER 


在 信息 检索 领域 ， 倒 排 索引 是 一 种 常见 的 数据 结构 ， 用 于 加 快 在 文档 集 
找 文 e EET ORBE ROA, DIR RC 


表 。 


为 构建 该 索引 ， 我 们 要 解析 文档 集中 的 所 有 文档 ， 并 且 以 增 量 方式 构建 索引 。 
对 于 每 个 文档 来 说 ， 我 们 抽取 该 文档 中 的 重要 单词 删除 最 常见 单词 ， 也 叫 作 
bere 或 者 也 可 能 应 用 词 干 提取 算法 ) ， 并 且 之 后 将 那些 单词 加 入 到 索引 
。 如 果 一 个 文档 中 的 某 个 单词 存在 于 索引 之 中 ， 就 将 该 文档 加 入 到 与 该 单词 
Kae 1。 如 果 文 档 中 的 某 个 单词 并 不 存在 于 索引 之 中 ， 那 么 将 该 
单词 加 入 到 索引 的 单词 列表 中 ， 并 且 将 该 文档 与 该 ! 词 关联 起 来 。 可 以 为 这 种 
关联 关系 加 入 一 些 参数 ， 例 如 文档 中 单词 的 < 术语 频次 ”， 以 便 提供 更 多 的 信 


o 
¿0D 


当 你 搜索 文档 集合 中 的 一 个 单词 或 者 单词 列表 时 ， 使 用 个 排 索引 来 获取 与 每 个 
单词 相关 的 文档 列表 ， 并 创建 含有 搜索 结果 的 一 个 唯一 列表 。 


本 节 ， 你 将 学 会 如 何 使 用 Java 并 发 程序 来 为 一 个 文档 集 构建 一 个 倒 排 索引 文 
后。 至 于 文档 集 ， 我 们 选用 维基 百科 (Wikipedia) 上 有 关 电 影 信息 的 页 面 来 构 
建 一 个 含有 100 673 个 文档 的 集合 。 我 们 将 每 一 个 维基 百科 页 面 转换 成 一 个 文 
本 文件 ， 你 可 以 随 本 书 配套 源码 一 起 下 载 该 文档 集 。 


为 了 构建 倒 排 索引 我 们 个 会 删除 任何 单词 ， 也 不 会 
我 们 希望 使 算法 尽 可 能 简单 ， 以 便 将 精力 集中 于 并 发 


提 到 的 原理 同样 也 可 以 用 于 获取 有 关 文 档 集合 的 其 他 信息 ， 例 如 每 个 文档 
ÓN 你 将 在 第 7 章 中 学 习 这 些 内 容 。 


和 其 他 示例 一 样 ， 你 将 实现 这 些 操作 的 串 行 版 和 并 发 版 ， 以 验证 在 该 例 中 并 发 
处 理 对 我 们 的 帮助 。 


任何 词 干 提取 算法 。 
FE e 


SH 
El E 
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串 行 版 和 并 发 版 在 实现 将 文档 集合 加 载 到 Java 对 象 时 要 用 到 一 些 共同 的 类 。 我 
们 用 到 了 下 面 两 个 类 。 


e Document 类 ， 用 于 存放 文档 中 所 含 单词 的 列表 。 
. DocumentParse &, 于 将 一 个 以 文件 存储 的 文档 转换 成 一 个 文档 对 
Ho 
让 我 们 分 析 一 下 这 两 个 类 的 源 代码 。 


a. Document 类 


单 ， 它 只 有 两 个 属性 以 及 用 于 获取 和 设置 局 


Ri) 
rr. 
tt 

a 

IT 


的 方 


Document 类 非 * 
法 。 这 两 个 属性 


。 文件 名 ， 这 是 一 个 字符 串 。 
。 词汇 表 (也 就 是 当中 用 到 的 单词 的 列表 ) ， 这 是 一 个 HashMap 
。 其 键 为 单词 ， 其 值 为 该 单词 在 文档 中 出 现 的 次 数 。 


. DocumentParser 类 


正如 前 面 提 到 的 ， 该 类 将 以 文件 存储 的 文档 转换 为 以 Document 対象 表示 
的 文档 。 它 将 单词 划分 为 三 个 方法 。 第 一 个 是 parse( ) 方法 ， 它 接收 文 
件 路 径 作 为 参数 ， 并 且 返 回 a 。 该 方法 
使 用 Files 美的 readA11Lines( ) 方法 逐 行 读 取 文 件 ， 并 使 
parseLine( ) 方法 将 每 一 行 转换 成 一 个 单词 列表 ， 并 且 将 其 添加 到 词汇 
表 中 ， 如 下 所 示 。 


To 


public class DocumentParser { 


public Map<String, Integer> parse(String route) { 
Map<String, Integer> ret=new HashMap<String, Integer>(); 
Path file=Paths.get(route); 
try { 
List<String> lines = Files.readAllLines(file); 
for (String line : lines) { 
parseLine(line, ret); 


} catch (IOException e) { 
e.printStackTrace(); 


return ret; 


parseLine( ) 方法 处 理 当 前 行 并 抽取 其 中 的 单词 。 为 使 本 例 更 加 简单 ， 
我 们 将 单词 看 作 一 个 字母 字符 序列 。 我 们 使 用 Pattern 类 来 抽取 单词 ， 
使 用 Normalizer 类 将 音 词 转 换 成 小 写 形式 ， 并 且 删 除 元 音 的 重音 符 
号 ， 如 下 所 示 : 


private static final Pattern PATTERN = Pattern.compile 
("\\P{IsAlphabetic}+"); 


private void parseLine(String line, Map<String, Integer> ret) { 
for(String word: PATTERN.split(line)) { 
if(!word.isEmpty()) 
ret.merge(Normalizer.normalize(word, Normalizer.Form.NFKD) 


.toLowerCase(), 1, (a, b) -> a+b); 
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本 例 的 串 行 版 本 在 SerialIndexing 类 中 实现 。 该 类 含有 main( ) WE, A 
头 读 取 所 有 文档 、 获 取 其 词汇 表 ， 并 且 以 增 量 方式 构建 倒 排 索引 。 


先 ， 我 们 初始 化 必要 的 变量 。 文 档 集 存放 在 目录 data 因此 我 们 用 一 个 
File 对 象 数组 来 存储 所 有 的 文档 。 我 们 还 し 了 invertedTndex 対象 o 
在 此 到 了 一 个 HashMap ， 它 的 键 为 单词 ， 而 它 的 值 是 一 个 字符 串 对 象 列 
这 些 字符 串 表 示 的 是 含有 该 单词 的 文 中 的 名 称 ， 如 下 所 示 : 


vit 


public class SerialIndexing { 
public static void main(String[] args) { 


Date start, end; 

File source = new File("data"); 

File[] files = source.listFiles(); 

Map<String, List<String>> invertedIndex=new 
HashMap<String, List<String>> (); 


然后 ， 我 们 使 用 DocumentParse 类 来 解析 所 有 文档 ， 并 且 使 用 
updateInvertedIndex() 方法 将 从 各 个 文档 获取 的 词汇 表 添 加 到 倒 排 索引 
1。 我 们 还 测量 了 所 有 处 理 过 程 的 执行 时 间 ， 代 码 如 下 所 示 : 


start=new Date(); 
for (File file : files) { 


DocumentParser parser = new DocumentParser(); 
if (file.getName().endswith(".txt")) { 


Map<String, Integer> voc = parser.parse(file.getAbsolutePath()); 
updateInvertedIndex(voc,invertedIndex, file.getName()); 


} 
end=new Date(); 


最 后 ， 我 们 在 控制 台中 显示 执行 结果 。 


System.out.printin("Execution Time: "+(end.getTime()- 
start.getTime())); 
System.out.printin("invertedIndex: "+invertedIndex.size()); 


updateInvertedIndex() 方法 将 一 个 文档 的 词汇 表 添加 到 倒 排 索引 结构 
is 它 处 理 所 有 构成 词汇 表 的 单词 。 如 果 单 词 已 经 存在 于 倒 排 索引 之 中 ， 我 们 
将 文档 名 称 添加 到 与 该 单词 相关 联 的 文档 列表 之 中 。 如 果 单 词 并 不 存在 于 倒 排 
索引 之 中 ， 就 将 单词 加 入 倒 排 索引 并 且 将 文档 与 该 单词 关联 起 来 ， 如 下 所 示 :; 


private static void updateInvertedIndex(Map<String, Integer> voc, 
Map<String, List<String>> invertedIndex, String fileName) { 
for (String word : voc.keySet()) て 
if (word.length() >= 3) て 
invertedIndex.computeIfAbsent (word, k -> new 
ArrayList<>()).add(fileName); 


533 ”第 一 个 并 发 版 本 每 个 文档 一 个 任务 


现在 ， 是 实现 并 发 版 文本 索引 算法 的 时 候 了 。 显 然 ， 我 们 可 以 并 行 化 每 个 文档 
的 处 理 。 其 牛 读 取 文档 和 逐 行 处 理 以 获取 文档 词汇 表 。 各 任务 可 返 
可 词汇 表 作 为 结果 ， 因 此 我 们 可 以 基于 Callable 接口 来 实现 任务 。 


在 前 面 的 示例 中 ， 我 们 用 了 三 个 方法 来 将 Callable 任务 发 送 给 执行 器 。 


e submit() 
e invokeAll() 
e invokeAny() 


我 们 要 人 处理 所有 的 文档 ， 因 此 必须 放弃 jnvokeAny( ) 方法 。 可 其 他 两 个 方法 
又 很 不 方便 。 如 果 我 们 使 用 Submit ( ) 方法 ， 就 必须 确定 在 何 时 处 理 任务 的 结 
果 。 如 果 为 每 个 文档 都 发 送 一 个 任务 ， 就 可 以 以 如 下 方式 处 理 结果 。 


。 在 发 送 每 个 任务 后 ， 显 然 这 是 不 现实 的 。 
。 在 所 有 任务 完成 后 ， 这 样 我 们 就 需要 存储 大 量 Future 对 象 。 
。 在 发 送 一 组 任务 后 ， 我 们 需要 编写 代码 来 同步 两 个 操作 。 


这 些 方法 都 有 一 个 问题 ， 我 们 以 顺序 方式 来 处 理 这 些 任务 的 结果 。 如 果 使 用 
invokeAll() 方法 ， 所 处 的 情形 就 与 第 二 点 相似 ， 我 们 必须 等 所 有 任务 都 结 
束 。 


一 个 可 行 的 供 选 方案 是 创建 其 他 些 任务 来 处 理 与 每 个 王 务 相关 的 Future 对 
象 ， 而 Java 并 发 API 提 供 了 一 种 很 好 的 解决 方案 ， 采 用 CompletionService 
接口 及 其 实现 (BlExecutorcompletionService É) 来 实现 这 一 解决 方 


CompletionService 对 象 囊 有 一 个 执行 器 ， 它 允许 你 将 任务 生成 和 那些 任 
务 结果 的 使 用 分 离开 来 。 你 可 以 使 用 submit ( ) 方法 向 执行 器 发 送 任务 ， 并 在 
这 些 任务 执行 完毕 后 使 MO ) 或 者 take( ) 方法 来 获取 其 结果 。 因 此 ， 就 
我 们 的 解决 方案 而 言 ， 将 实现 下 述 要 素 。 


© 一 个 用 于 执行 任务 的 CompletionService 対象 

。 为 每 个 文档 分 配 一 个 任务 以 解析 文档 并 且 生 成 其 词汇 表 ， 而 该 任务 将 
CompletionService 对 象 来 执行 。 这 些 任 务 都 在 IndexingTask 类 
实现 。 


. 创建 两 个 线程 来 处 理 任务 结 并 且 构 造 倒 排 素 引 。 这 些 线程 都 在 
InvertedIndexTask 类 中 实现 > 
。 一 个 用 于 创建 和 执行 所 有 要 素 的 main( ) 方法 。 该 方法 在 


ConcurrentIndexingMain 类 中 实现 。 
让 我 们 来 分 析 一 下 这 些 类 的 源 代码 
a. IndexingTask 类 


该 类 实现 的 任 务 是 解析 一 个 文档 来 获取 其 词汇 表 。 该 类 实现 了 用 
Document 类 参数 化 的 callable 接口 。 它 有 一 个 存储 File 対象 的 内 部 
属性 ， 而 该 File 对 象 代 表 了 它 要 解析 的 文档 。 请 看 下 面 的 代码 : 


o 


o 


public class IndexingTask implements Callable<Document> { 
private File file; 
public IndexingTask(File file) { 
this.file-file; 
} 


在 ca11( ) 方法 中 ， 直 接 使 用 了 DocumentParser 美的 parse( ) 方法 来 
解析 文档 ， 获 得 词汇 表 ， 并 且 根 据 获 得 的 数据 创建 和 返回 Document 对 
象 。 


@Override 
public Document call() throws Exception { 
DocumentParser parser = new DocumentParser(); 


Map<String, Integer> voc = parser.parse(file.getAbsolutePath()); 


Document document=new Document (); 
document. setFileName(file.getName()); 
document .setVoc(voc); 

return document; 


ß. InvertedIndexTask 类 


该 类 实现 的 任务 是 获取 由 IndexingTask 対象 生成 的 Document 対象 , 
且 创 建 倒 排 索引 。 该 任务 将 作为 Thread 对 象 来 执行 (我们 在 本 例 
有 使 用 执行 器 ) ， 因 此 它 是 基于 Runnable 接口 的 。 


没 


InvertedIndexTask 类 用 到 了 下 述 三 个 内 部 属性 。 


。 由 Document 美 参 数 化 的 Comp1etionService 对 象 ， 用 于 访问 
IndexingTask 対象 返 回 的 対象 
。 用 于 存储 倒 排 索引 的 ConcurrentHashMap ， 其 键 为 单词 ， 而 值 为 
一 个 存放 文件 名 字符 串 的 ConcurrentLinkedDeque 。 在 本 例 中 ， 
我 们 要 使 用 并 发 数据 结构 ， 而 在 串 行 版 本 中 使 用 的 数据 结构 是 没有 同 


。 一 个 用 于 表明 任务 能 够 完成 其 工作 的 布尔 值 。 
相关 代码 如 下 所 示 : 


public class InvertedIndexTask implements Runnable { 


private CompletionService<Document> completionService; 
private ConcurrentHashMap<String, 
ConcurrentLinkedDeque<String>> invertedIndex; 
public InvertedIndexTask(CompletionService<Document> 
completionService, ConcurrentHashMap<String, 
ConcurrentLinkedDeque<String>> invertedIndex) { 
this.completionService = completionService; 
this.invertedIndex = invertedIndex; 


run( ) 方法 使 用 来 自 completionService 美的 take( ) 方法 获取 与 菜 
一 任务 相关 联 的 Future 对 象 。 我 们 实现 了 一 个 循环 ， 在 线程 中 断 之 前 该 
盾 环 将 一 直 运行 。 当 该 线程 中 断 之 后 ， 它 会 再 次 使 用 po11( ) 方法 处 理 所 
有 待 处 理 的 Future 对 象 。 我 们 使 JupdateInvertedIndex() 方法 以 


Rtake() FEA 的 对 象 来 更 新 倒 排 索引 ， 方 法 如 下 所 示 : 


= 


H 


o 


a 


public void run() { 
try £ 
while (!Thread.interrupted()) { 
try £ 
Document document = completionService.take().get(); 
updateInvertedIndex(document.getVoc(), invertedIndex, 
document.getFileName()); 
} catch (InterruptedException e) { 
break; 


} 


} 
while (true) { 
Future<Document> future = completionService.poll(); 
if (future == null) 
break; 
Document document = future.get(); 
updateInvertedIndex(document.getVoc(), invertedIndex, 
document.getFileName()); 


} catch (InterruptedException | ExecutionException e) { 
e.printStackTrace(); 


} 
} 


Bia, updateInvertedIndex 方法 将 从 文档 获得 的 词汇 表 、 倒 排 索引 
和 文件 名 作为 参数 处 理 。 该 方法 处 理 词汇 表 的 所 有 单词 。 如 果 单 词 没 有 在 
索引 中 出 现 ， 我 们 使 用 computeIfAbsent( ) 方法 将 其 添加 到 
invertedIndex 中 。 


+ 


private void updateInvertedIndex(Map<String, Integer> voc, 
ConcurrentHashMap<String, ConcurrentLinkedDeque<String>> 
invertedIndex, String fileName) { 
for (String word : voc.keySet()) { 
if (word.length() >= 3) { 
invertedIndex.computeIfAbsent(word, k -> new 
ConcurrentLinkedDeque<>()).add(fileName); 


y. ConcurrentIndexing 类 


这 是 本 例 的 主 类 。 该 类 创建 并 启动 了 所 有 组 件 ， 等 竺 执行 过 程 结 束 ， 并 且 
在 控制 台 输 出 最 终 执 行 时 间 。 


先 ， 它 要 创建 并 初始 化 执行 过 程 中 所 需 的 所 有 变量 。 


。 运 行 InvertedTask 任务 的 执行 器 。 和 前 面 的 例子 一 样 ， 我 们 使 用 

机 器 的 核心 数 作为 执行 器 中 的 最 大 工作 线程 数 。 不 过 在 本 例 中 ， 我 们 

预 留 了 一 个 核 来 执行 独立 线程 。 
运行 任务 的 CompletionService 对 象 。 我 们 使 用 此 前 创建 的 

执行 器 来 初始 化 该 对 象 。 

・ 用 干 存 偽 倒 排 宗 引 的 ConcurrentHashMap < 

。 一 个 含有 所 有 待 处 理 文档 的 File 对 象 数 组 


相关 方法 如 下 所 示 : 


public class ConcurrentIndexing { 


ANS 
I 


o 


o 


public static void main(String[] args) { 


int numCores=Runtime.getRuntime().availableProcessors(); 
ThreadPoolExecutor executor=(ThreadPoolExecutor) 
Executors.newFixedThreadPool(Math.max(numCores-1, 1)); 
ExecutorCompletionService<Document> completionService=new 
ExecutorCompletionService<>(executor); 
ConcurrentHashMap<String, ConcurrentLinkedDeque<String>> 
invertedIndex=new ConcurrentHashMap 
<String, ConcurrentLinkedDeque<String>> (); 


Date start, end; 


File source = new File("data"); 
File[] files = source.listFiles(); 


然后 ， 处 理 数组 中 的 所 有 文件 ， 为 每 个 文件 创建 一 个 InvertedTask 对 
象 ， 并 且 使 用 Submit( ) 方法 将 其 发 送 给 completionService 类 。 我 
门 已 经 介绍 了 一 种 避免 执行 器 过 载 的 方法 。 我 们 可 以 检查 待 处 理 任务 队列 
的 规模 ， 如 果 该 队列 的 规模 大 于 1000， 就 将 该 线程 休眠 ， 队 列 规模 不 再 减 
小 之 时 ， 我 们 就 不 再 发 送 更 多 任务 了 。 


start=new Date(); 
for (File file : files) { 
IndexingTask task=new IndexingTask(file); 
completionService.submit(task); 
if (executor.getQueue().size()>1000) { 
do { 
try { 
TimeUnit.MILLISECONDS.sleep(50); 
} catch (InterruptedException e) { 
e.printStackTrace(); 


} 
} while (executor.getQueue().size()>1000); 


然后 ， 创 建 两 个 InvertedIndexTask 対象 来 外 理由 TrnvertedTask 任 
务 返回 的 结果 ， 并 且 将 其 作为 常规 Thread 对 象 来 执行 。 


InvertedIndexTask invertedIndexTask=new InvertedIndexTask 
(completionService, invertedIndex); 

Thread threadi=new Thread(invertedIndexTask); 

thread1.start(); 

InvertedIndexTask invertedIndexTask2=new InvertedIndexTask 
(completionService, invertedIndex); 

Thread thread2=new Thread(invertedIndexTask2); 

thread2.start(); 


启动 所 有 要 素 之 后 ， 可 使 用 shutdown( ) 方 法 和 awaitTermination( ) 
方法 等 待 执行 器 结束 。awaitTermination( ) 方法 将 在 所 有 
InvertedTask 任务 执行 完毕 后 返回 ， 这 样 我 们 就 可 以 结束 执行 
InvertedIndexTask 任务 的 线程 了 。 要 做 到 这 一 点 ， 我 们 需要 中 上 断 这 
些 线程 (参看 有 关 InvertedIndexTask 的 注释 ) ， 如 下 面 的 代码 片段 
所 示 : 


executor.shutdown(); 

try { 
executor.awaitTermination(1, TimeUnit.DAYS); 
thread1.interrupt(); 
thread2.interrupt(); 
thread1.join(); 
thread2.join(); 

} catch (InterruptedException e) て 
e.printStackTrace(); 


最 后 ， 我 们 在 控制 台 输 出 倒 排 索引 的 大 小 以 及 所 有 处 理 过 程 的 执行 时 间 : 


= 


end=new Date(); 

System.out.printin("Execution Time: "+(end.getTime()- 
start.getTime())); 

System.out.printin("invertedIndex: "+invertedIndex.size()); 


5.3.4 ”第 二 个 并 发 版 本 每 个 任务 多 个 文档 


我 们 还 实现 了 本 例 的 第 二 个 并 发 版 本 。 基 本 原理 与 第 一 个 版 本 的 相同 ， 但 
是 在 本 例 中 ， 每 个 全 - 务 将 处 理 多 个 文档 击 不 是 仅 处 理 个 文档 。 每 个 任务 
处 理 的 文档 数 将 作为 main( ) 方法 的 一 个 输入 参数 。 我 们 测试 了 每 个 任务 
处 理 100、1000 和 5000 个 文档 的 结果 。 


H 


为 实现 这 一 新 方式 ， 需 要 实现 下 述 三 个 新 类 o 


Is I 


a 


B. 


MultipleIndexingTask 类 : 该 类 与 IndexingTask 美 相当 , 但 
是 它 处 理 的 是 一 个 文档 列表 ， 而 不 仅仅 是 一 个 文档 。 
MultipleInvertedIndexTask É: 该 类 与 
InvertedIndexTask 类 相当 ， 只 不 过 现在 任务 要 检索 的 是 一 个 
Document 对 象 列表 ， 而 不 仅仅 是 一 个 Document 対象 
MultipleConcurrentIndexing É: 该 类 与 
ConcurrentIndexing 类 相当 ， 只 不 过 它 还 用 到 了 其 他 新 类 。 


这 一 版 本 的 源 代码 和 前 一 版 本 多 有 相似 ， 我 们 仅 给 出 其 中 的 不 同 点 。 


LE 


.MultipleIndexingTask & 


正如 前 面 提 到 的 ， 该 类 和 此 前 介绍 的 IndexingTask 类 很 类 似 。 
要 区 别 在 于 它 使 用 的 是 一 个 File 对 象 列 表 ， 而 不 仅仅 是 一 个 文人 


TE 
o f 


public class MultipleIndexingTask implements 
Callable<List<Document>> { 


private List<File> files; 
public MultipleIndexingTask(List<File> files) { 


this.files = files; 


} 


call() 方法 返回 的 是 一 个 Document 对 象 列表 ， 而 不 仅仅 是 一 个 
Document 对 象 。 


@Override 
public List<Document> call() throws Exception { 
List<Document> documents = new ArrayList<Document>(); 
for (File file : files) { 
DocumentParser parser = new DocumentParser(); 


Hashtable<String, Integer> voc = parser.parse 
(file.getAbsolutePath()); 


Document document = new Document (); 
document. setFileName(file.getName()); 
document .setVoc(voc); 


documents .add(document ) ; 


} 


return documents; 


MultipleInvertedIndexTask & 


正如 前 面 提 到 的 ， 该 类 和 前 面 介绍 的 InvertedIndexClass 类 相 
Whe 主要 区 別 在 干 run( ) 方 法 ・ po11( ) 方法 返回 的 Future 対象 返 
回 了 一 介 Document 对 象 列表 ， 因 此 我 们 要 处 理 的 是 整个 列表 。 请 看 
如 下 代码 片段 : 


@Override 
public void run() { 

try { 
while (!Thread.interrupted()) { 

try { 
List<Document> documents = completionService.take().get(); 
for (Document document : documents) { 

updateInvertedIndex(document.getVoc(), invertedIndex, 
document .getFileName( ) ) / 


} 
} catch (InterruptedException e) { 
break; 


} 


} 
while (true) { 
Future<List<Document>> future = completionService.poll(); 
if (future == null) 
break; 
List<Document> documents = future.get(); 
for (Document document : documents) { 
updateInvertedIndex(document.getVoc(), invertedIndex, 
document.getFileName()); 
} 


} catch (InterruptedException | ExecutionException e) { 
e.printStackTrace(); 
} 


} 


y. MultipleConcurrent Indexing & 


y 


正如 前 面 提 到 的 ， 该 类 和 ConcurrentIndexing 类 很 相似 。 唯 
同 的 是 利用 新 类 ， 并 
数量 。 我 们 有 如 下 方法 : 


start=new Date(); 
List<File> taskFiles=new ArrayList<>(); 
for (File file : files) { 
taskFiles.add(file); 
if (taskFiles.size()==NUMBER_OF_TASKS) { 
MultipleIndexingTask task=new 
MultipleIndexingTask(taskFiles); 
completionService.submit(task); 
taskFiles=new ArrayList<>(); 
if (executor.getQueue().size()>10) { 
do { 
try { 
TimeUnit .MILLISECONDS.sleep(50); 
} catch (InterruptedException e) { 
e.printStackTrace(); 


} while (executor.getQueue().size()>10); 


} 


} 

if (taskFiles.size()>0) { 
MultipleIndexingTask task=new MultipleIndexingTask(taskFiles); 
completionService.submit(task); 


} 


MultipleInvertedIndexTask invertedIndexTask=new 


MultipleInvertedIndexTask(completionService, invertedIndex); 

Thread threadi=new Thread(invertedIndexTask); 

thread1.start(); 

MultipleInvertedIndexTask invertedIndexTask2=new 
MultipleInvertedIndexTask 

(completionService, invertedIndex); 


使 用 第 一 个 参数 来 决定 每 个 任务 所 处 理 的 文档 


不 


Thread thread2=new Thread(invertedIndexTask2); 


thread2.start(); 


5.3.5 “对比 解决 方案 


让 我 们 对 比 一 下 前 面 已 经 实现 的 该 例 三 个 版 本 的 解决 方案 。 正 如 前 面 提 到 


的 ， 在 文档 集合 方面 ， 我 们 选取 了 有 关 电 影 信息 


Él 


个 含有 100 673 个 文档 的 文档 集合 。 我 们 将 每 个 维基 百科 页 面 转换 为 一 个 
文本 文件 。 你 可 以 下 载 该 文档 集合 以 及 所 有 有 关 本 书 的 信息 。 


我 们 执行 了 五 个 版 本 的 解决 方案 。 


© 串 行 版 本 。 
。 一 个 任务 处 理 一 个 文档 的 并 发 版 本 。 


一 个 任务 处 理 多 个 文档 的 并 发 版 本 ， 分 为 每 个 全 


1000 和 5000 个 文档 的 情况 。 


E 务 分 别处 理 100、 


我 们 采用 JMH 框 架 (请 查看 名 为 “Code Tools: jmh" 的 文章 ) 执行 这 些 示 


例 ， 该 框架 允许 你 Tava 岗 微 型 基准 测试 。 使 用 


个 面向 基准 测试 的 框 
架 是 比较 好 的 解决 方案 ， 它 直接 FicurrentTimeMillis() 方法 或 者 


nanoTime() 方法 度量 时 间 。 我 们 在 两 种 不 同 的 架构 上 分 别 执行 这 些 示 


例 10 次 ・ 


。 一 台 计 算 机 配置 了 Core i5-53004h Eg > Windows 7 操作 系统 和 16GB 


的 RAM。 该 处 理 器 有 两 个 核 ， 且 每 个 核 可 以 执行 两 个 线程 ， 这 样 我 


们 就 有 四 个 并 行 线程 。 


。 另 一 台 计 算 机 配置 了 AMD A8-640 处 理 器 、Windows 10 操 作 系统 和 


8GB 的 RAM。 该 处 理 器 有 四 个 核 。 


下 表 给 出 了 五 个 版 本 的 执行 时 间 。 


算法 Intel 架 构 AMD 架 构 
执行 时 间 (毫秒 ) 执行 时 间 (毫秒 ) 
串 行 版 本 29 305.63 137 519.75 
并 发 版 本 : 一 个 任务 处 理 一 个 文档 13 704.17 75 593.93 
并 发 版 本 : 一 个 任务 处 理 100 个 文档 26 579.30 195 928.209 
并 发 版 本 : 一 个 任务 处 理 1000 个 文档 25 126.47 133 080.655 
并 发 版 本 : 一 个 任务 处 理 5000 个 文档 23 454.38 118 789.394 


我 们 可 以 得 出 下 面 结论 。 
e 并 发 版 本 总 是 比 串 行 版 本 性 能 好 


。 对 于 并 发 版 本 而 言 ， 如 果 增 加 每 个 任务 所 处 理 的 文档 数量 ， 将 获得 更 
EA o 


在 本 例 中 ， 两 种 架构 上 的 执行 结果 有 较 大 差异 ， 


{ 


RE 


他 因素 ， 例 如 硬 


例 读 取 的 文件 超过 211100 ( 000 份 ， 会 频繁 使 用 内 存 。 


如 有 果 我 们 使 
下 结果 。 


= 


盘 、 内 存 空间 和 处 理 速度 等 ， 实 际 上 对 本 例 的 结 


“有 


较 大 的 影响 ， 因 为 本 


速 比 来 比较 串 行 版 本 和 并 发 版 本 的 处 理 速度 ， 就 会 得 到 如 


Tserial 137 519.75 


SAMD = 一 一 一 -一 82 
; = 75 5.93. 93 

Ge 了 serial T 29 305.63 -213 

e Teoncurrent 13 704.17 E 


5.3.6 ”其 他 相关 方法 


kÆ, HUNMAbstractExecutorService 接口 (在 
ThreadPoolExecutor 类 中 实现 ) 和 Comp1etionService 接口 (在 
ExecutorCompletionService 中 实现 ) 的 一 些 方 法 来 管理 callable 
任务 的 结果 。 然 而 ， 在 此 我 们 还 想 提 及 我 们 曾 用 过 的 这 些 方法 的 其 他 版 本 
以 及 其 他 一 些 方 法 。 


关于 AbstractExecutorService 接口 ， 我 们 介绍 下 壕 方法 。 


ad 


e invokeA11 (Collection<? extends Callable<T>> 
tasks, long timeout, TimeUnit unit): 当 作 为 参数 传递 
的 Ca11ab1e 任务 列表 中 的 所 有 任务 完成 执行 ， 或 者 执行 时 间 超出 了 
第 二 、 第 三 个 参数 指定 的 时 间 范 围 时 ， 该 方法 返回 一 个 与 该 
Callable 任务 列表 相关 联 的 Future 対象 列表 

invokeAny (Collection<? Extends Callable<T>> 
tasks, long timeout, TimeUnit unit): 当 作为 参数 传递 
的 Ca11ab1e 任务 列表 中 的 任务 在 超时 (由 第 二 和 第 三 个 参数 指定 的 
期限 ) 之 前 完成 其 执行 并 且 没有 抛 出 异常 时 ， 该 方法 返回 callable 
任务 列表 中 第 一 个 任务 的 结果 。 如 果 超 时 ， 那 么 该 方法 抛 出 一 个 


= 


TimeoutException 5% ° 


关于 CompletionService 接口 ， 我 们 介绍 下 述 方 法 。 


。 po11( ) 方法 : 我 们 用 到 了 该 方法 带 有 两 个 参数 的 版 本 ， 不 过 该 方法 
还 有 一 个 不 带 参数 的 版 本 。 从 内 部 数据 结构 来 看 ， 该 版 本 检索 并 且 删 
除 自 上 一 次 调用 po11() 或 take( ) 方法 以 来 下 一 个 已 完成 任务 的 
Future 对 象 。 如 果 没 有 任何 任务 完成 ， 执 行 该 方法 将 返回 null 值 。 

* take() WIE: 该 方法 和 前 一 个 方法 类 似 ， 只 不 过 如 果 没 有 任何 任务 
完成 ， 它 将 休眠 该 线程 ， 直 到 有 一 个 任务 执行 完毕 为 止 。 


5.4 小结 
在 本 章 中 ， 你 学 习 了 与 返回 结果 的 任务 打交道 时 用 到 的 几 种 机 制 。 这 些 任 


务 都 基于 callable 接口 ， 而 callable 接口 中 声 明 了 ca11( ) 方法 。 该 
接口 是 一 个 由 cal1( ) 方法 返回 的 类 进行 参数 化 的 接口 。 


当 你 在 执行 器 中 执行 一 个 callable 任务 时 ， 总 是 要 获得 Future 接口 的 
一 个 实现 。 你 可 以 使 用 这 个 对 象 来 撤销 该 任务 的 执行 ， 通 过 该 对 象 来 知晓 
任务 是 否 完成 执行 ， 或 者 获得 call( ) 方 法 所 返 加 的 结果 。 


你 可 以 通过 三 种 方式 将 Callable 任务 发 送 给 执行 器 。 通 过 submit() 方 
法 可 以 发 送 一 个 任务 ， 而 且 将 很 快 获得 一 个 与 该 任务 相关 联 的 Future 对 
象 。 通过 invokeAl1() 方法 ， 你 可 以 发 送 一 个 任务 列表 ， 并 且 当 所 有 任 
务 都 完成 执行 之 后 获得 一 个 Future 対象 列表 通过 invokeAny() 方 
法 ， 你 可 以 发 送 一 个 任务 列表 ， 而 且 将 接收 到 第 一 个 执行 结束 且 没 有 抛 出 
异常 的 任务 的 结果 (并 不 是 一 个 Future 対象 ) 。 剩 余 其 他 任务 将 被 撤 


Java 并 发 API 提 供 了 另 一 种 机 制 来 处 理 这 些 任务 类 型 。 这 种 机 制 在 
CompletionService 接口 中 定义 ， 并 且 在 
ExecutorCompletionService 类 中 实现 。 这 种 机 制 允许 你 将 任务 的 
执行 与 任务 结果 的 处 理解 厢 。CompletionService 接口 在 内 部 使 用 了 
一 个 执行 器 ， 并 且 提 供 submit( ) 方法 将 任务 发 送 给 
CompletionService 320, Miel ト 本 po11( ) 方 法 和 take( ) 方 法 来 
获取 这 些 任务 的 结果 。 提 供 这 些 结果 的 顺序 与 任务 执行 完毕 的 顺序 相同 。 


你 还 学 会 了 如 何 通过 两 个 真实 的 例子 来 实现 这 些 理念 。 首 先是 一 个 针对 
UK ACD SE 最 佳 匹配 算法 ;其 次 是 一 个 倒 排 索引 构造 程序 ， 它 用 到 
的 数据 集 包 含 了 从 维基 百科 上 抽取 的 10 万 多 份 有 关 电 影 信息 的 文档 。 


下 一 章 ， 你 将 学 会 如 何以 一 种 划分 为 多 个 阶段 的 并 发 方式 来 执行 算法 。 这 
些 阶段 的 主要 特点 是 ， 你 必须 在 开始 下 一 阶段 之 前 将 当前 阶段 的 所 有 任务 
执行 完毕 。Java 并 发 API 提 供 了 Phaser 类 ， 可 使 这 些 算 法 的 并 发 实现 更 
加 方便 。 该 类 让 你 可 以 在 一 个 阶段 结束 时 同步 所 有 参与 本 阶段 工作 的 任 
e 因此 在 当前 阶段 执行 完毕 之 前 ， 任 何 任务 都 不 能 开始 下 一 阶段 的 工 


第 6 章 运行 分 为 多 阶段 的 任务 : 
Phaser 类 


在 并 发 API 中 ， 最 重要 的 因素 就 是 它 为 编程 人 员 提 供 的 同步 机 制 。 同 步 是 
指 为 获得 预期 结果 而 对 两 个 或 多 个 任务 进行 的 协调 。 当 两 个 或 多 个 任务 按 
L 


预定 顺序 执行 时 ， 可 以 对 其 执行 进行 同步 ， 或 
执行 某 个 代码 段 或 者 修改 某 个 内 存 区域 时 ， 可 以 同 

享 资源 的 访问 。Java 9 并 发 API 提 供 了 大 量 同步 机 秆 É 
synchronized 关键 字 和 Lock 接口 以 及 它们 用 了 保护 临界 段 的 具体 实 
现 ， 到 更 高 级 的 CyclicBarrier 类 和 CountDownLatch 类 ， 支 持 同步 
不 同 任务 的 执行 顺序 。 在 Java 7 中 发 API 引 入 了 Phaser 类 。 该 类 提供 
了 一 种 强大 的 机 制 〈 分 段 器 ) ， 将 任务 划分 为 多 个 阶段 执行 。 王 务 可 以 


要求 Phaser 类 等 待 直到 所 有 其 他 参与 方 完成 该 阶段 。 本 章 将 涵盖 下 述 主 
题 。 


Bit 
+ 
= 


e Phaser 类 简介 。 
。 第 一 个 例子 ， 关键 字 抽 取 算 法 。 
。 第 二 个 例子 ， 遗传 算法 。 


6.1 Phaser 类 简介 


Phaser 类 是 一 种 同步 机 制 ， 用 于 控制 以 并 发 方式 划分 为 多 个 阶段 的 
的 执行 。 如 果 处 理 过 程 已 有 明确 定义 的 步 又， 那么 必须 在 开始 第 二 个 步 又 
之 前 完成 第 一 步 的 工作 ， 以 此 类 推 ， 并 且 可 以 使 用 Phaser 类 实现 该 过 程 
的 并 发 版 本 。Phaser 类 的 主要 特征 有 以 下 几 点 。 


。 分 段 器 (phaser) 必须 知道 要 控制 的 任务 数 。Java 称 之 为 参与 者 的 注 
册 机 制 。 参 与 者 可 以 随时 在 分 段 嚣 中 注册 。 

。 任务 完 成 一 个 阶段 之 后 必须 通知 分 段 器 。 在 所 有 参与 者 都 完成 该 阶段 
之 前 ， 分 段 器 将 使 该 任务 处 于 休眠 状态 。 
。 在 内 部 ， 分 段 器 保存 了 一 个 整数 值 ， 该 值 存储 分 段 器 已 经 进行 的 阶段 


变更 数 


O 
y 


与 者 可 以 随时 脱离 分 段 器 的 控制 。Java 将 这 一 过 程 称 为 参与 者 的 注 


参 

销 。 

当 分 段 器 做 出 阶段 变更 时 ， 可 以 执行 定制 的 代码 。 

. a eras 。 如 果 一 个 分 段 器 终止 了 ， 就 不 再 接受 新 的 参与 
通 


y 
o 


也 不 会 进行 任务 之 间 的 同步 。 
。 通过 一 些 方法 获得 分 段 器 的 参与 者 数目 及 其 状态 。 


6.1.1 参与 者 的 注册 与 注销 


如 前 所 述 ， 一 个 分 段 器 必须 知道 其 控制 的 任务 数目 ， 必 须知 道 正在 执行 划 
分 为 多 个 阶段 的 法 的 不 同 线程 数目 ， 以 便 正确 控制 同时 发 生 的 阶段 变 


プー 


ava 将 此 过 程 称 作 参 与 者 的 注册 。 正 常情 况 下 ， 参 与 者 在 执行 开始 时 注 
册 ， 但 是 也 可 以 随时 注册 。 


可 以 采用 不 同方 式 注 册 参 与 者 ， 如 下 所 示 。 
。 创建 Phaser 对 象 时 : Phaser 类 提供 了 四 个 不 同 的 构造 画 数 。 其 


常用 的 有 了 两 个 。 

o Phaser( ) : 该 构造 函数 创建 了 一 个 0 个 参与 者 的 分 段 器 。 

o Phaser(int parties): 该 构造 函数 创建 了 一 个 含有 给 定数 
参与 者 的 分 段 器 。 
e 还 可 以 通过 下 述 方 法 显 式 创 建 。 
o bulkRegisterl(int parties): 同时 注册 给 定数 目的 新 参 

与 者 。 
o register() : 注册 一 个 新 参与 者 。 


分 段 器 控制 的 任务 完成 执行 时 ， 必 须 从 分 段 器 注销 。 如 果 不 这 样 做 ， 分 段 
器 就 会 在 下 一 阶段 变更 中 一 直 等 待 该 任务 。 注 销 一 个 参与 者 ， 可 以 使 用 
arriveAndDeregister() 方法 。 使 RENDER 经 
成 了 当前 阶段 ， 而 且 不 再 参与 下 一 阶段 。 


6.1.2 ”同步 阶段 变更 


分 段 器 的 主要 目的 是 使 那些 可 以 分 割 成 多 个 阶段 的 算法 以 并 发 方式 执行 。 
所 有 任务 完成 当前 阶段 之 前 ， 任 何 任务 都 不 能 进入 下 一 阶段 。Phaser 类 
提供 了 arrive() ` N RI, 
arriveAndAwaitAdvance() 三 个 方法 通报 任务 已 经 完成 当前 阶段 。 如 
中 某 个 任务 没有 调用 上 述 三 个 方法 之 一 ， 那 么 分 段 器 对 其 他 参与 任务 
的 阻塞 是 不 确定 的 。 继 续 进 入 下 一 阶段 需要 用 到 下 述 方法 。 


e arriveAndAwaitAdvance( ) : 任务 使 用 该 方法 疝 分 段 器 通报 ， 
明 它 已 经 完成 了 当前 阶 段 并 且 要 继续 下 一 阶段 。 Sy RB a HE 
务 ， 直 到 所 有 参与 的 任务 已 调用 其 中 一 个 同步 方法 
。awaitAdvance(int phase): 任务 使 用 该 方法 向 用 EC, 如 
该 方法 参数 中 的 数值 和 分 段 器 的 实际 阶段 数 相等 ， REN 
段 结束 ;如 果 这 两 个 数值 不 相等 ， 则 该 方法 立即 返 世 


6.1.3 其他 功能 


在 所 有 参与 任务 都 完成 了 某 个 阶段 的 执行 之 后 ， 在 继续 下 一 阶段 之 前 ， 
Phaser 类 执行 onAdvance( ) 方法 。 该 方法 接收 如 下 两 个 参数 


。phase : ar 。 第 一 个 阶段 的 编号 为 0。 
* registeredParties: 这 个 参数 代表 参与 任务 的 数目 。 


< 一 


Si 


sa 


mm 
也 


= 


EE BZ 


日 


那么 可 


以 扩展 Pha 


段 器 可 以 


a 


以 下 两 下 


ura 


HUT HE RAS 
ser 类 3} 


状态 。 
¿UN 


1, 


马 ， 例 如 ， 对 某 些 
重 载 该 方法 以 实现 自 


H 


创建 ] 


分 


段 器 且 新 


的 参与 者 注册 后 


+ HERE 
poate 
。 终 止 状态 : 


太 o 
¿Un 
回 


0 


y 


的 数 


默认 情况 下 ， 


true 


，Phaser 类 提供 


getPhase(): 
IE Menna RE Less 


持续 这 下 


onAdva 


Mr 


KA, 
Pr 


Fl 
那样 工作 
nce( ) 方 法 返 回 


CAR IE o 4bI 


o 


HAS É APT 


4 FO 
3) 


当 


E ° 


分 段 器 处 于 终止 状态 8 
会 立即 返回 。 


ES 


寸 ， 新 


了 


e getRegisteredParties(): 


YA 


getUnarrivedParties() - 


者 的 数 


Te 


E, 


EI 


IS] 


川 返 


H 


false 值 


这 种 状态 时 ， 


true 值 时 ， 分 段 器 进入 这 种 状 
, OnAdvance( ) 方法 将 返 


数据 进行 排序 或 才 
己 的 分 段 器 。 


， 分 段 器 将 进入 激活 
它 接受 新 的 


且 同 步 方法 


ロ 


一 些 方法 ， 获 取 分 


WI 


当前 阶段 的 
该 方法 返 世 


H 


Ei 


的 


入 的 


该 方法 返 


RIS Ex ae Sb 


F 终 


kak 


止 状态 ， 


6.2 第 一 介 例 子 : 关键 字 抽 取 算 法 


在 本 节 ， 你 将 使 
文本 文档 或 和 


则 该 方法 返 


FP 参与 者 的 信 
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当前 阶段 的 参与 
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true 


现 关键 字 抽取 算法 。 这 类 


ERS 
文档 外 
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A] 


以 选 


有 较 高 TF-IDF 值 的 单词 。 
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该 单词 


NEE 


要 实现 的 算法 将 通过 执行 下 述 阶 段 计算 文档 集合 中 的 最 佳 关 键 字 。 


。 阶段 1: 解析 所 有 文档 并 且 抽 取 所 有 单词 的 DF 值 。 请 注意 ， 只 有 人 解析 
了 所 有 文档 才 可 以 获得 准确 值 。 
。 阶 段 2， 计 算 所 有 文档 中 单词 的 TF-IDF 值 。 为 每 个 文档 选择 10 个 关键 
F (TF-IDF 值 评价 最 高 的 10 个 单词 ) o 
© 阶段 3: 获得 一 个 最 佳 关 键 字 列表 。 这 个 列表 中 的 单词 应 该 能 够 代表 
大 多 数 文档 的 关键 字 。 


为 了 测试 算法 ， 将 使 用 有 关 电 影 信 息 的 维基 百科 页 面 作 为 文档 集合 。 该 集 
合 与 第 5 章 中 用 过 的 集合 相同 ， 由 100 673 个 文档 组 成 。 我 们 将 每 个 维基 百 
科 页 面 转换 成 一 个 文本 文件 ， 可 以 随 本 书 配套 的 资源 下 载 该 文档 集合 。 


你 将 实现 本 算法 的 两 个 版 本 : 基础 串 行 版 本 和 使 用 Phaser 类 的 并 发 版 
A o can 我 们 将 比较 两 个 版 本 的 执行 时 间 ， 以 验证 并 发 处 理 能 够 禹 
来 更 好 的 性 能 。 


6.2.1 公共 类 


该 算法 的 两 个 版 本 具有 一 些 通 用 功能 ， 用 于 解析 文档 以 及 存储 有 关 文 档 、 
关键 字 和 单词 的 信息 。 这 样 的 公共 类 有 如 下 几 项 。 


。 Document É: 用 于 存放 含有 文档 以 及 构成 文档 的 单词 的 文件 名 。 
e Word 类 : 用 于 存放 单词 字符 串 和 度量 该 单词 的 指标 (TF、DF 和 TF- 
IDF) > 
。 Keyword 类 : 用 于 存放 单词 字符 串 以 及 将 该 单词 作为 关键 字 的 文档 
数量 。 
e DocumentParser 类 : 用 于 抽取 某 个 文档 的 单词 。 


下 面 详细 介绍 一 下 这 些 类 。 
a. Word 类 


word 类 存放 了 有 关 某 个 单词 的 信息 。 这 些 信息 包括 整个 单词 以 及 影 
响 它 的 措施 ， 也 就 是 它 在 某 个 文档 中 的 TF 值 ， 全 局 DF 值 ， 以 及 其 最 
终 的 TF-IDF 值 。 


该 类 实现 了 Comparable 接口 ， 因 为 要 对 单词 数组 进行 排序 ， 以 获 
得 具有 较 高 TF-IDF 值 的 单词 。 相 关 代 码 如 下 。 


public class Word implements Comparable<word> { 


ott 
一 这 


生 的 方法 EER 


然后 ， 声 明 该 类 的 属性 并 且 实 现 获取 和 设置 这 些 属 


private String word; 
private int tf; 
private int df; 
private double tfIdf; 


To 


我 们 还 实现 了 其 他 一 些 有 用 的 方法 ， 如 下 所 示 。 


。 GRIPE, 対 word (接收 作为 参数 的 单词 ) 和 df 属性 
( 取 值 为 1 ) 进行 了 初始 化 。 

・ addTf( ) 方法 ， 用 于 增加 tf 属性 的 值 。 

。merge( ) 方法 ， 接 收 一 个 Word 对 象 作 为 参数 ， 对 来 自 两 个 不 同 
文档 的 同一 单词 进行 合并 。 将 两 个 Word 対象 的 tf 属性 值 和 df 

属性 值 相 加 。 


然后 ， 实 现 了 setDf( ) 方法 的 一 个 特殊 版 本 。 该 方法 接收 df 属性 
作为 参数 ， 接 收集 合 中 文档 的 总 数 ， 然 后 计算 得 出 tfIdf 属性 的 


Ku) 


BE 
II 
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public void setDf(int df, int N) { 

this.df = df; 

tfIdf = tf * Math.log(Double.valueof(N) / df); 
} 


El 
nã 
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直 从 高 到 


最 后 ， 实 现 了 compareTo( ) 方法 ， 并 希望 按照 tfIdf 属性 
底 的 顺序 对 单词 进行 排序 。 


@Override 
public int compareTo(Word o) { 
return Double.compare(o.getTfIdf(), this.getTfIdf()); 


. Keyword & 


Keyword 类 存放 了 关于 关键 字 的 信息 。 该 信息 包括 完整 的 单词 以 及 
将 该 单词 作为 关键 字 的 文档 数 。 


Sword 类 一 样 ， 之 所 以 该 类 也 实现 了 Comparable 接口 ， 是 因为 将 
对 一 个 关键 字数 组 进行 排序 以 获取 最 佳 关键 字 。 


public class Keyword implements Comparable<Keyword> { 


o 


Rt (acta 


然后 ， 声 明 该 类 的 属性 并 且 实 现 相应 的 方法 设 定 和 返 
给 出 ) 。 


O 


private String word; 
private int df; 


< 


Cn 


最 后 ， 实 现 compareTo( ) 方法 ， 和 希望 能 够 按照 文件 数量 由 多 到 小 的 
顺序 排列 关键 字 。 


@Override 
public int compareTo(Keyword o) て 


return Integer.compare(o.getDf(), this.getDf()); 


. Document 美 


Document 类 存放 文档 集合 (请 记 住 集合 中 有 100 673 个 文档 ) 中 
个 文档 的 相关 信息 ' 包 括 文件 名 和 构成 该 文档 的 单词 集合 。 该 单 
词 集合 通常 也 被 称 作 该 文档 的 词汇 表 ， 采 用 HashMap 实现 ， 它 将 整 
个 单词 视 为 一 个 字符 串 并 作为 键 ， 将 一 个 Word 对 象 作 为 值 。 


public class Document { 
private String fileName; 
private HashMap <String, Word> voc; 


我 们 实现 了 一 个 构造 函数 创建 该 HashMap ， 实 现 了 用 于 获取 和 设置 
文件 名 的 方法 ， 以 及 返回 文档 词汇 表 的 方法 〈 这 些 方法 在 此 未 给 

出 ) 。 我 们 还 实现 了 一 个 向 词汇 表 添加 单词 的 方法 。 如 果 单 词 不 在 词 
| 将 其 加 入 词汇 表 。 


如 果 单 词 在 词汇 表 中 ， 则 增加 该 单词 的 tf 属性 值 。 我 们 使 用 了 voc 
对 象 的 computeIfAbsent( ) 方法 。 如 果 单 词 不 在 词汇 表 中 ， 则 该 
方法 会 将 其 插入 到 HashMap 44, 然 后 用 addTf( ) 方法 来 增加 tf 
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public void addword(String string) { 
voc.computelfAbsent(string, k -> new Word(k)).addTf(); 


HashMap 类 并 不 是 同步 的 ， 但 是 仍然 可 以 在 并 发 应 用 程序 中 使 用 ， 
因为 不 同 任务 并 不 会 共享 该 类 。 一 个 Document 对 象 只 能 由 一 个 任务 
生成 ， 因 此 使 用 HashMap 类 时 并 不 会 导致 并 发 版 应 用 程序 


条 件 bo 


. DocumentParser 类 


DocumentParser 类 读 取 一 个 文本 文件 的 内 容 并 且 将 其 转换 成 一 个 
Document 对 象 。 该 类 将 文本 分 割 成 若干 单词 并 且 将 它们 存放 在 
Document 对 象 中 ， 进 而 生成 词汇 表 。 该 类 有 两 个 静态 方法 第 一 个 
是 parse( ) 方法 ， 接 妇 文 件 路 径 字 符 串 ， 返 回 一 个 Document 对 


象 。 该 方法 打开 文件 并 且 逐 行 读 取 ， 使 用 parseLine( ) 方法 将 每 行 


转换 成 一 个 单词 序列 ， 并 且 将 它们 存放 在 Document 类 。 


public class DocumentParser { 


public static Document parse(String path) { 
Document ret = new Document(); 
Path file = Paths.get(path); 
ret.setFileName(file.toString()); 


try (BufferedReader reader = 
Files.newBufferedReader (file)) { 
for(String line : Files.readAllLines(file)) { 
parseLine(line, ret); 


} catch (IOException x) { 
x.printStackTrace(); 


} 


return ret; 


parseLine() 方法 接收 竺 解析 的 行 和 用 于 存放 单词 的 Document 对 


象 作 为 参数 。 
首先 ， 该 方法 使 用 Normalizer 类 删除 每 一 行 的 重音 符号 ， 并 将 其 
转换 成 小 写 形式 。 
private static void parseLine(String line, Document ret) { 
line = Normalizer.normalize(line, Normalizer.Form.NFKD); 
line = line.replaceAll("[A\\p{ASCII}]", ""); 
line = line.toLowerCase(); 
然后 ， 使用 StringTokenizer 类 将 该 行 分 割 成 多 个 单词 ， 并 且 将 


这 些 单 词 添 加 到 Document 对 象 。 


private static void parseLine(String line, Document ret) { 


// HEFIR 
line = Normalizer.normalize(line, Normalizer.Form.NFKD); 


line = line.replaceAll("[A\\p{ASCII}]", ""); 
line = line.toLowerCase(); 
分 词 程序 


for(String w: line.split("\\W+")) て 
ret.addword(w); 
} 


} 


6.2.2 RATA 


DE 


我 何 巳 在 Seria1KeywordExtraction 类 中 实现 了 关键 字 算法 的 
行 版 本 。 该 类 定义 了 执行 测试 该 算法 的 main( ) 方法 。 


第 一 步 是 声明 以 下 这 些 执行 算法 必需 的 内 部 变量 。 

。 两 个 用 于 度量 执行 时 间 的 Date 对 象 。 

。 一 个 存放 含有 文档 集合 的 目录 名 称 的 字符 串 。 
一 个 用 于 存放 有 关 文 档 集合 文件 的 File 对 象 数组 。 
。 一 个 于 存放 文档 集合 全 局 词汇 表 的 HashMap 。 
・ — ] 于 存放 关键 字 的 HashMap o 
。 两 个 用 于 度量 有 关 执 行情 况 统计 数据 的 int 1 


下 面 给 出 了 这 些 变量 的 声明 o 


o 


public class SerialKeywordExtraction { 
public static void main(String[] args) { 
Date start, end; 


File source = new File("data"); 

File[] files = source.listFiles(); 

HashMap<String, Word> globalVoc = new HashMap<>(); 
HashMap<String, Integer> globalKeywords = new HashMap<>(); 
int totalcalls = 0; 

int numDocuments = 0; 


start = new Date(); 


然后 ， 介 绍 该 算法 的 第 一 阶段 。 我 们 使 用 DocumentParser 类 的 
parse() 方法 解析 所 有 文档 。 该 方法 返回 一 个 含有 文档 词汇 表 的 
Document 对 象 。 我 们 使 用 HashMap ce) 方法 将 文档 词汇 
表 添 加 到 全 局 词汇 表 。 如 果 单 词 不 存在 ， 则 将 它 插入 HashMap 。 如 
Ra ， 则 将 两 个 单词 对 象 合并 到 一 起 ， 并 且 对 Tf 属性 和 
DF 属性 求 和 。 


I 


if(files == null) { 
System.err.printin("Unable to read the 'data' folder"); 
return; 


} 
for (File file : files) { 
if (file.getName().endswith(".txt")) { 
Document doc = DocumentParser.parse (file.getAbsolutePath()); 
for (Word word : doc.getVoc().values()) { 
globalVoc.merge(word.getword(), word, Word::merge); 


numDocuments++; 


System.out.println("Corpus: " + numDocuments + " documents."); 


在 此 阶段 之 后 ，globalVocHashMap 类 包含 了 文档 集合 的 所 有 
词 ， 以 及 单词 的 全 局 TF (单词 在 文档 集合 出 现 的 总 次 数 ) 和 DF 
值 。 


然后 ， 引 入 该 算法 的 第 二 阶段 。 如 前 所 述 ， 我 们 将 使 用 TF-IDE 指 标 计 
算 每 个 文档 的 关键 字 。 必 须 再 次 解析 每 个 文档 以 生成 其 词汇 表 ， 因 为 
内 存 不 能 存放 构成 文档 集合 的 100 673 份 文档 的 词汇 表 。 如 果 处 理 的 


文档 集合 规模 较 小 ， 可 以 和 尝试 只 解析 这 些 文档 一 次 ， 并 且 将 全 部 文档 
的 词汇 表 存 放 在 内 存 中 。 不 过 在 我 们 的 例子 中 ， 这 是 不 可 能 的 。 攻 
此 ， 再 次 解析 全 部 文档 ， 并 且 使 用 globalVoc 中 存放 的 值 更 新 每 个 
单词 的 df 属性 。 我 们 还 构造 了 个 含有 文档 中 所 有 单词 的 数组 。 


for (File file : files) { 
if (file.getName().endswith(".txt")) て 
Document doc = DocumentParser.parse(file.getAbsolutePath()); 
List<word> keywords = new ArrayList<>( 
doc.getVoc().values()); 


int index = 0; 

for (Word word : keywords) { 
Word globalword = g1oba1Voc .get(word.getword( ) ) 
word.setDf(globalword.getDf(), numDocuments ) ; 


现在 ， 有 关键 字 列 表 ， 其 中 含有 文档 中 所 有 单词 以 及 计算 得 出 的 TF- 
更 用 Co11ections 美的 sort( ) 方法 对 该 列表 排序 ， 具 有 
较 高 TF-IDEF 值 的 单词 排 在 前 面 。 然 后 ， 我 们 获取 该 列表 中 的 前 10 个 和 
词 ， 更 用 addKeyword( ) 方法 将 其 存放 在 
globalKeywordsHashMap 中 。 


选择 排名 前 10 的 单词 并 没有 特殊 原 他 供 选 方案 也 可 以 尝试 ， 例 
如 某 一 比例 的 一 组 单词 或 者 TF-IDF 指标 最 小 信 等 ， 看 看 它们 的 表现 
情况 。 


pa 


A 


Collections.sort(keywords); 
int counter = 0; 
for (Word word : keywords) { 


addKeyword(globalKeywords, word.getWord()); 
totalCalls++; 
} 


+ 
} 


后 ， 引 入 该 算法 的 第 三 阶段 。 将 globalLKeywordsHashMap 转换 
一 條 Keyword 対 象 列表 , 使用 Co11ections 美的 sort( ) 方 法 対 
数组 进行 排序 。 将 DF 值 较 高 的 关键 字 排 在 列表 的 前 面 ， 并 且 在 控 
制 台 输 出 前 100 个 单词 。 


相关 代码 如 下 所 示 : 


eS 


List<Keyword> orderedGlobalKeywords = new ArrayList<>(); 

for (Entry<String, Integer> entry : globalKeywords.entrySet()) { 
Keyword keyword = new Keyword(); 
keyword. setwWord(entry.getkey()); 
keyword.setDf(entry.getValue()); 
orderedGlobalKeywords.add(keyword); 


Collections.sort(orderedGlobalKeywords); 


if (orderedGlobalKeywords.size() > 100) £ 
orderedGlobalKeywords = orderedGlobalKeywords.subList(®, 100); 


for (Keyword keyword : orderedGlobalKeywords) { 
System.out.println(keyword.getWord() + ": " + keyword.getDf()); 


与 第 二 阶段 相同 ， 选 择 前 100 个 单词 没有 特殊 的 理由 。 也 可 以 洽 试 其 
他 供 选 方案 。 


为 了 结束 main( ) 方法 ， 在 控制 台 输 出 执行 时 间 和 其 他 统计 数据 。 


= 


end = new Date(); 
System.out.printin("Execution Time: " + (end.getTime() - 
start.getTime())); 
System.out.printin("vocabulary Size: " + globalVoc.size()); 
System.out.println("Keyword Size: " + globalkeywords.size()); 
System.out.printin("Number of Documents: " + numDocuments); 
System.out.printin("Total calls: " + totalCalls); 


Seria1KeywordExtraction 类 还 包 括 addKeyword( ) 方法 ， E 


于 更 新 globalKeywordsHashMap 类 中 某 个 关键 字 的 信息 。 如 果 
该 单词 存在 ， 则 该 类 更 新 其 DF 值 ， 如 果 不 存在 ， 则 将 其 插入 。 相 关 
REAN F: 


private static void addKeyword(Map<String, Integer> 
globalKeywords, String word) { 
globalKeywords.merge(word, 1, Integer::sum); 


6.2.3 ”并 发 版 本 
为 了 实现 本 例 的 并 发 版 本 ， 我 们 用 到 了 如 下 两 个 不 同 的 类 > 
。KeywordExtractionTasks 类 : 该 类 以 并 发 方式 实现 准备 计 
算 关 键 字 的 任务 。 这 些 任务 将 作为 Thread 对 象 执行 ， 因 此 该 类 
SHIT Runnable 接口 。 


。 ConcurrentKeywordExtraction X: 该 类 提供 main( ) 方 
法 执行 算法 ， 创 建 、 启 动 任 务 ， 并 且 等 待 任务 完成 。 


下 面 仔细 看 看 这 些 类 。 


a. KeywordExtractionTask 类 


如 前 所 述 ， 该 类 实现 了 计算 最 终 单词 列表 的 任务 。 它 实现 了 
Runnable 接口 ， 因 此 可 以 将 其 作为 一 个 Thread ， 而 
且 其 内 部 用 到 了 一 些 属 性 ， 大 多 数 属性 所 有 TS HE o 


。 用 于 存放 全 局 词汇 表 和 全 局 关键 字 的 两 个 
ConcurrentHashMap 对 象 : 之 所 以 使 用 
ConcurrentHashMap 是 因为 这 些 对 象 将 被 所 有 任务 更 
新 ， 这 样 就 必须 采用 并 发 数据 结构 避免 竞争 条 件 。 

. FE PDA RI CAS 
ConcurrentLinkedDeque : 之 所 以 使 
ConcurrentLinkedDeque 类 是 因为 所 有 任务 都 将 同时 于 
取 (获取 或 删除 该 列表 的 元 素 ， 因 此 必须 使 用 并 发 数据 竹 

构 以 避免 竞争 条 件 。 如 有 果 使 用 常规 List ， 那 么 同一 File 

对 象 会 被 不 同 的 任务 解析 两 次 。 之 所 以 采用 两 个 

ConcurrentLinkedDeque 是 因为 必须 要 对 整个 文档 集合 

解析 两 次 。 如 前 ra, 通过 从 数据 结构 中 抽取 File 対象 解 

析 文 档 集 合 。 解析 该 集合 时 ， 该 数据 结构 将 为 空 。 

。 用 于 控制 任务 执行 的 phaser WR: ， 如 前 所 述 ， 关 键 字 抽取 

按照 三 个 阶段 执行 。 在 所 有 任务 都 完成 上 一 阶段 之 前 ， 

王 何 任务 都 不 能 进入 下 一 阶段 。 使 用 Phaser 类 对 此 加 以 控 

制 。 否 则 ， 将 会 得 到 不 一 致 的 结果 。 

。 最 后 阶段 必须 由 唯一 的 线程 执行 : 将 使 用 布尔 值 区 分 主任 
务 与 其 他 任务 。 IAL A 14 行 最 后 阶段 。 


。 集合 中 的 文档 总 数 需要 该 值 计 算 TF-IDF 指 标 。 
我 们 引入 了 一 个 构造 画 数 以 初始 化 所 有 属性 。 


um 
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public class KeywordExtractionTask implements Runnable { 


private ConcurrentHashMap<String, Word> globalVoc; 
private ConcurrentHashMap<String, Integer> globalKeywords; 


private ConcurrentLinkedDeque<File> 
concurrentFileListPhasel; 

private ConcurrentLinkedDeque<File> 
concurrentFileListPhase2; 


private Phaser phaser; 


private String name; 
private boolean main; 


private int parsedDocuments; 
private int numDocuments; 


public KeywordExtractionTask( 
ConcurrentLinkedDeque<File> 
concurrentFileListPhasel, 
ConcurrentLinkedDeque<File> 
concurrentFileListPhase2, 
Phaser phaser, ConcurrentHashMap<String, Word> 
globalVoc, 
ConcurrentHashMap<String, Integer> globalKeywords, 
int numDocuments, String name, boolean main) { 
this.concurrentFileListPhase1 = concurrentFileListPhasel; 
this.concurrentFileListPhase2 = concurrentFileListPhase2; 
this.globalvoc = globalVoc; 
this.globalKeywords = globalKeywords; 
this.phaser = phaser; 
this.main = main; 
this.name = nane; 
this.numDocuments = numDocuments; 


使用 run( ) 方法 实现 该 算法 分 为 三 个 阶段 。 首 先 ， 调 用 分 段 器 

的 arriveAndAwaitAdvance( ) 方法 等 待 其 他 任务 的 创建 。 所 
有 任务 都 会 同时 开始 执行 。 然 后 ， 正 如 在 该 算法 的 串 行 版 本 中 提 
到 的 ， 解 析 所 有 文档 并 且 构 建 
globalVocConcurrentHashMap 类 ， 含有 所 有 单词 及 


全 局 TF 值 和 DF 值 。 为 了 完成 第 一 阶段 ， 再 次 调用 
arriveAndAwaitAdvance() 方法 ， 在 第 二 阶段 开始 之 前 等 待 
其 他 任务 结束 。 


@Override 
public void run() て 
File file; 


au 


11 第 一 阶段 
phaser.arriveAndAwaitAdvance(); 
System.out.println(name + ": Phase 1"); 
while ((file = concurrentFileListPhase1.poll()) != null) { 
Document doc = 
DocumentParser.parse(file.getAbsolutePath()); 
for (Word word : doc.getVoc().values()) { 
globalVoc.merge(word.getWord(), word, Word: :merge); 


parsedDocuments++; 


} 


System.out.println(name + ": " + parsedDocuments + 
" parsed."); 
phaser.arriveAndAwaitAdvance(); 


EMMA EIA, ARDE File 対象 , 使用] 
ConcurrentLinkedDeque 美的 po11( ) 方法 。 该 方法 检索 
且 删 除 Deque 的 第 一 个 元 素 ， 这 样 下 一 个 任务 将 获取 不 同 的 文 
件 进行 解析 ， 并 且 没 有 文件 会 被 解析 两 次 。 


正如 在 该 算法 的 串 行 版 中 提 到 的 ， 第 二 阶段 计算 了 
globalkeywords 结构 。 首 先 ， 计 算 每 个 文档 最 优 的 10 个 关键 
字 ， 然 后 将 其 插入 ConcurrentHashMap 类 。 该 代码 和 串 行 版 
中 的 相同 ， 只 是 将 串 行 数据 结构 替换 为 并 发 数据 结构 。 


// 第 二 阶段 
System.out.printin(name + ": Phase 2"); 
while ((file = concurrentFileListPhase2.poll()) != null) { 


Document doc = 
DocumentParser.parse(file.getAbsolutePath()); 

List<word> keywords = new ArrayList<> 
(doc.getVoc().values()); 


for (Word word : keywords) { 
Word globalword = globalVoc.get(word.getword()); 
word.setDf(globalword.getDf(), numDocuments); 


Collections.sort(keywords); 


if(keywords.size() > 10) keywords = keywords.subList(0, 
10); 
“for (Word word : keywords) { 
addKeyword(globalKeywords, word.getword()); 


} 


System.out.println(name + ": " + parsedDocuments + 
" parsed. "); 


对 于 主任 务 和 其 他 任务 而 言 最 后 阶段 将 有 所 不 同 。 在 将 整个 文档 
集合 中 的 100 个 最 佳 关 键 字 输 出 到 控制 台 之 前 ， 主 任务 使 用 
Phaser 类 的 arriveAndAwaitAdvance( ) 方法 等 待 所 有 任务 
的 第 二 阶段 结束 。 最 后 ， 使 用 arriveAndDeregister() 方法 
从 分 段 器 中 注销 。 


剩 下 的 任务 使 用 arriveAndDeregister( ) 方法 标记 第 二 阶段 
的 结束 、 从 分 段 器 注销 以 及 完成 其 执行 。 


当 所 有 的 任务 完成 工作 后 ， 都 将 从 分 段 器 中 注销 。 最 后 分 段 器 将 
有 0 个 参与 方 ， 并 且 将 进入 终止 状态 。 


if (main) { 
phaser.arriveAndAwaitAdvance(); 


Iterator<Entry<String, Integer>> iterator = 


globalKeywords.entrySet().iterator(); Keyword 
orderedGlobalKeywords[] = new 
Keyword[globalKeywords.size()]; 
int index = 0; 
while (iterator.hasNext()) { 
Entry<String, AtomicInteger> entry = iterator.next(); 
Keyword keyword = new Keyword(); 
keyword.setword(entry.getKey( ) ) 
keyword.setDf(entry.getValue().get()); 
orderedGlobalkeywords [index] = keyword; 
index++; 


} 


System.out.println("Keyword Size: " + 
orderedGlobalKeywords.length); 


Arrays.parallelSort(orderedGlobalKeywords); 

int counter = 0; 

for (int i = 0; i < orderedGlobalKeywords.length; i++){ 
Keyword keyword = orderedGlobalKeywords[i]; 
System.out.println(keyword.getword() + ": "+ 

keyword.getDf()); 
counter++; 
if (counter == 100) { 
break; 

} 

} 

} 


phaser.arriveAndDeregister(); 


System.out.printin("Thread " + name + " has finished."); 


} 


B. ConcurrentKeywordExtraction 类 


ant 


ConcurrentKeywordExtraction 类 初始 化 共享 对 象 、 创 
任务 、 执 行 任务 并 且 等 待 任务 结束 。 它 实现 的 main( ) 方法 可 
接收 可 选 参数 。 默 认 情 况 下 ， 执 行 的 任务 数 由 Runtime 类 的 


NE) 


availableProcessors() 方法 确定 ， 该 方法 返 


o 


可 供 Java 虚 


拟 机 (Java virtual machine, JVM) 使 用 的 硬件 线程 数 。 如 果 接 


peal 
处 


He 


JU; 


ConcurrentLinkedDeque 结构 ， 我 们 使 用 File 美的 


一 个 参数 ， 那 么 就 将 其 转换 成 一 个 整 型 值 ， 并 且 将 其 用 作 可 
理 器 数量 的 乘 数 ， 以 确定 将 创建 的 任务 数 。 


初始 化 所 有 必要 的 数据 结构 和 参数 。 为 了 填充 这 两 个 


listFiles() 方法 获取 一 个 File 对 象 数组 ， 其 中 含有 txt 后 绥 


任务 


以 使 用 不 带 参 数 的 构造 函数 创建 Phaser 对 象 ， 这 样 所 有 的 
必须 在 分 段 器 中 进行 显 式 注册 。 相 关 代码 如 下 : 


public class ConcurrentKeywordExtraction { 


public static void main(String[] args) { 


Date start, end; 


ConcurrentHashMap<String, Word> globalVoc = new 
ConcurrentHashMap<>(); 

ConcurrentHashMap<String, Integer> globalKeywords = new 
ConcurrentHashMap<>(); 


start = new Date(); 
File source = new File("data"); 
File[] files = source.listFiles(f -> 
f.getName().endswith(".txt")); 
if (files == null) { 
System.err.printin("The 'data' folder not found!"); 
return; 


} 


ConcurrentLinkedDeque<File> concurrentFileListPhase1 = 


new 
ConcurrentLinkedDeque<>(Arrays.asList(files)); 

ConcurrentLinkedDeque<File> concurrentFileListPhase2 = 

new 
ConcurrentLinkedDeque<>(Arrays.asList(files)); 

int numDocuments = files.length(); 

int factor = 1; 

if (args.length > 0) { 

factor = Integer.valueOf(args[0]); 
} 
int numTasks = factor * 
Runtime.getRuntime().availableProcessors(); 

Phaser phaser = new Phaser(); 

Thread[] threads = new Thread[numTasks]; 

KeywordExtractionTask[] tasks = new 

KeywordExtractionTask[numTasks]; 

然后 ， 将 创建 的 第 一 个 任务 其 主 参数 置 为 tue， 其 他 任务 的 主 参 
数 置 为 false。 每 个 任务 创建 完毕 后 ， 我 们 使 用 Phaser 类 的 
register() 方法 在 分 段 器 中 注册 一 个 新 的 参与 方 ， 如 下 所 
IR: 
for 


(int i = 0; i < numTasks; i++) { 


tasks[i] = new 
KeywordExtractionTask(concurrentFileListPhasel, 


concurrentFileListPhase2, phaser, 


globalVoc, 


globalKeywords, 


concurrentFileListPhasel.size(), 
"Task" + i, i==0); 
phaser.register(); 
System.out.println(phaser.getRegisteredParties() + " 
tasks arrived to the Phaser."); 


然后 ， 创 建 并 局 动 运行 该 任务 的 线程 对 象 ， 并 且 等 待 其 结束 。 


for (int i = 0; i < numTasks; i++) { 
threads[i] = new Thread(tasks[i]); 
threads[i].start(); 


for (int i = 0; i < numTasks; i++) { 
try { 

threads[i].join(); 

} catch (InterruptedException e) { 
e.printStackTrace(); 


果 ， 包 括 执行 时 间 。 


on 


Bua, Tefal GRID A RATEMA 


ud 


System.out.println("Is Terminated: " + 
phaser .isTerminated()); 


end = new Date(); 


System.out.printin("Execution Time: " + (end.getTime() - 
start.getTime())); 
System.out.println("Vocabulary Size: " + 
globalVoc.size()); 
System.out.println("Number of Documents: " + 
numDocuments); 


} 


6.2.4 对 比 两 种 解决 方案 


比较 一 下 关键 字 抽 取 算 法 的 串 行 版 和 并 发 版 。 为 测试 该 算法 ， 采 
了 含有 100 673 份 文档 的 文档 集合 。 


我 们 使 ae 执行 算 例 ， 它 允许 在 Java 中 实现 微型 基准 测 

试 。 使 用 面向 要 准 测 试 的 框架 是 很 好 的 解决 方案 ， 因 为 可 以 直接 
ba rencias 或 nanoTime( ) 这 样 的 方法 度量 
十 间 。 在 两 种 不 同 的 架构 上 分 别 执行 这 些 算 例 10 次 。 


。 一 台 计 算 机 配置 了 Intel Core i5-5300 处 理 器 、Windows 7 操作 
系统 和 16GB 的 RAM 。 该 处 理 器 有 两 个 核 且 每 个 核 可 以 执行 
j 个 线程 ， 这 样 就 有 四 个 并 行 线程 。 


T 
F 


= 


© FATAL E Y AMD A8-640 处 理 器 、Windows 10 操 作 
系统 和 8GB 的 RAM。 该 处 理 器 有 四 个 核 。 
算法 Intel AMD 
因子 执行 时 间 ( 秒 ) AF 执行 时 间 (E) 
串 行 版 |N/A |76.252 N/A |168.816 
1 35.092 1 60.740 
并 发 版 |2 34.495 2 60.806 
3 34.518 3 58.752 


可 以 得 出 如 下 结论 。 


。 在 两 种 架构 中 ， 相 对 于 串 行 版 而 言 


发 版 算法 的 性 能 有 所 


。 如 果 使 用 的 任务 数 多 于 可 用 硬件 线程 数 ， 并 不 会 得 到 更 好 的 


结果 。 存 在 些许 差别 ， 但 是 并 不 明显 。 
f 


行 版本 , 如 下 所 示 : 


2.87 


通过 计算 加 速 比 对 比 该 算法 的 并 发 版 本 和 串 
a Tserial 168.816 
SAMD = = ーーーーー = 2.81 
Teoncurrent 58.752 
Tzerial 76.252 
SIntel = ニーーーー = ーー - 二 
Teoncurrent 34.518 


63 ”第 二 个 例子 : 遗传 算法 


2.21 


遗传 算法 是 基于 自然 选择 原理 的 一 种 自 适应 启发 式 搜索 算法 ， 


个 问题 提供 可 能 的 解决 方案 ， 而 该 问题 被 称 


( 
常 ， 个 体 都 由 一 个 位 序列 表示 ， 不 过 也 可 以 
题 的 描述 方法 。 


法 的 主要 标 是 查找 一 个 能 够 使 该 函数 最 大 


3 于 为 最 优化 问题 和 搜索 问题 生成 优质 解决 方案 。 遗 传 
phenotype) 。 每 个 个 体 都 由 一 组 称 作 染色 体 的 


你 还 需要 一 个 适应 度 画 数 ， FERBER RBS o EA 


为 个 体 或 者 表现 
属性 描述 。 
选择 更 加 适合 具体 


El 


FF ES 


化 或 者 最小 化 的 解決 


贵 传 算法 从 问题 的 可 能 方案 集合 开始 。 这 个 


可 能 方案 的 集合 被 称 


a 


i FE o 该 初始 集合 本 以 随机 生成 或 使 用 某 
的 初始 解决 方案 。 


旦 有 了 初始 PREE, 可 以 启动 一 个 含有 三 个 


启发 函数 获得 更 好 


阶段 的 送 代 过 程 。 该 


AMAN in 代 。 每 em 


: 可 以 在 种 群 中 选择 更 好 的 个 体 ， 
函数 中 具有 较 好 的 值 。 
e XXL: 对 前 一 步 选 定 的 个 体 进行 交叉 ， 


三 个 阶段 。 
这 些 个 体 在 适应 度 


以 生成 构成 新 一 R 


的 新 个 体 。 这 种 操作 和 需要 两 个 个 体 参与 


并 且 生 成 两 个 新 的 个 


的 描述 情况 。 


。 突变 ， 可 以 应 用 突变 运算 符 改革 个 体 的 值 。 通 常 ， 只 可 


以 对 极 少量 的 个 体 执 行 该 操作 。 虽 然 突 


体 。 实 现 这 种 操作 依赖 于 要 解决 的 问题 ， 


> 及 所 选择 的 个 体 


变 是 一 项 对 于 查找 优 


质 解决 方案 非常 重要 的 操作 ， 但 是 7 
节 的 例子 。 


应 使 用 该 操作 简化 本 


满足 结束 标准 前 ， 可 以 重复 以 上 操作 。 结 束 标 准 可 为 以 下 几 项 。 


固定 的 代 的 数 目 


适应 度 函 数 设 置 的 预定 值 


时 间 限制 


。 找到 了 满足 预定 标准 的 解决 方案 


述 过 程 中 找到 的 最 佳 个 体 在 种 群 外 部 储存 起 


来 。 沪 个 体 将 成 为 算法 所 建议 的 解决 方案 ， 而 且 通 常 它 将 成 为 较 
8 为 还 要 产生 新 的 一 代 。 


法 解决 著名 的 旅行 商 问题 (TSP) 。 在 该 


问题 中 ， 有 一 个 城市 集合 和 它们 之 间 的 距离 集合 ， 要 找 出 一 条 最 


优 路 线 ， 即 在 经 过 全 部 城市 的 同时 旅行 路 线 的 总 距离 最 短 。 与 其 
们 实现 了 串 行 版 程序 和 使 用 Phaser 类 的 并 发 版 


程序 。 应 于 TSP 问 题 的 遗传 算法 的 主要 特点 如 下 。 


・ ME: 一 个 描述 了 城市 遍历 顺序 的 个 体 。 
© ZU: 在 交叉 操作 之 后 创建 有 效 的 解决 方案 。 访 问 每 个 城 
市 的 次 数 必须 只 为 一 次 。 
E 该 算法 的 主要 目标 是 使 遍历 每 个 城市 的 总 距 
离 最 短 
. 结束 标准 ， 将 按照 预定 数目 的 代 执行 该 算法 。 
如 下 表 所 示 ， 有 四 个 城市 的 距离 矩阵 。 
城市 1 城市 2 城市 3 城市 4 
城市 1 0 11 6 9 
城市 2 7 0 8 2 
城市 3 7 3 0 3 
Joy TO 4 10 9 4 0 
这 意味 着 城市 2 到 城市 1 的 距离 为 7， 但 是 城市 1 到 城市 2 的 距离 为 


11 ° (2,4,3,1) 可 以 为 一 个 个 体 ， 而 其 适应 度 函 数 为 2 到 4、4 到 3、3 
到 1、1 到 2 之 间 的 距离 之 和 ， 也 就 是 2+4+7+11=24。 


如 果 想 在 个 体 (1,2,3,4) 和 (1,3,2,4) 之 间 进 行 交 叉 ， 那 么 就 不 能 生成 
个 体 (12,2,4)， 因 为 这 样 将 访问 城市 2 两 次 。 可 以 生成 (12,4,3) 和 


(1,3,4,2) 2 


为 测试 该 算法 ， 
是 15 (1au15_dist ) 


6.3.1 公共 类 


E Y City Distance 数 据 集 中 的 两 个 例子 ， 分 别 


个 城市 和 57 (kn57_dist) 个 城市 。 


这 两 个 版 本 都 用 到 了 以 下 三 个 公共 类 。 


。DataLoader 类 


不 给 出 该 类 的 代码 。 oak 静 恋 方 法 , 接収 文件 名 , 返 回 


个 含有 城市 之 i 


个 文件 加 载 距离 矩阵 。 此 处 并 


E 


司 距 离 的 int[][] 和 矩阵。 距离 存放 在 一 个 


EN 


DEN (在 原始 格式 中 做 了 些许 变换 ) ， 这 样 很 容易 进 
fr 

Individual 类 ， 该 类 存放 了 种 群 中 某 个 个 体 的 信息 ( 即 
针对 当前 问题 的 可 能 解决 方案 ) 。 为 了 表示 每 个 个 体 ， 我 人 
RASA 的 数组 ， 它 存放 了 访问 不 同城 市 的 顺 
了 o 
GeneticOperators 类 ， 该 类 实现 了 交叉 、 选 择 和 对 种 群 
或 者 个 体 的 评估 。 


ut 


4 Individual 美和 Genetic0perators 类 的 详细 介 


. Individual 类 


该 类 存放 了 TSP 问 题 的 所 有 可 能 解 。 每 个 可 能 的 解 都 称 作 一 
个 个 体 ， 将 其 描述 称 作 染色 体 “。 在 我 们 的 例子 中 ， 将 每 个 可 
能 的 解 都 表示 为 一 个 整 型 数组 。 该 数组 包含 旅行 商 经 过 各 个 
A RES AR 
结果 。 代 码 如 


public class Individual implements 
Comparable<Individual> { 
private Integer[] chromosomes; 
private int value; 


我 们 有 两 个 构造 函数 。 第 一 个 接收 必须 访问 的 城市 的 数量 作 
为 参数 ， 创 建 一 个 空 数组 。 另 一 个 构造 画 数 接收 
Individual 对 象 作为 参数 ， 并 且 复 制 其 染色 体 ， 如 下 所 
IR: 


public Individual(int size) { 
chromosomes=new Integer[size]; 


public Individual(Individual other) { 
chromosomes = other.getChromosomes().clone(); 


我 们 也 实现 了 compareTo( ) 方法 ， 使 用 适应 度 函 数 的 结果 
比较 两 个 个 体 。 


@Override 
public int compareTo(Individual o) { 
return Integer.compare(this.getValue(), o.getValue()); 


最 后 ， 还 引入 了 获取 和 设 定 这 些 属性 的 方法 。 


gan 


B. GeneticOperators 类 


这 是 一 个 复杂 类 ， 因 为 它 实现 了 遗传 算法 的 内 部 逻辑 。 正 如 
在 本 市 开始 介绍 的 那样 ， 它 提供 了 进行 初始 化 、 选 择 、 交 叉 
和 评估 操作 的 方法 。 我 们 将 仅 介绍 该 类 提供 的 方法 而 非 它们 
如 何 实现 ， 以 避免 陷入 不 必要 的 复杂 细节 中 。 你 可 以 下 载 本 
例 的 源 代码 分 析 该 方法 的 实现 。 


该 类 提供 的 方法 有 如 下 几 个 。 


e initialize(int numberOfIndividuals, int 
size): 该 方法 创建 了 一 个 种 群 。 该 种 群 的 个 体 数 
numberOfIndividuals 参数 确定 。 染 色 体 (本 例 
就 是 城市 ) 的 数目 由 size 参数 确定 。 该 方法 将 返回 一 
个 Individual 对 象 数组 。 它 使 用 
initialize(Integer[]) 方法 初始 化 每 个 
Individual 对 象 。 
initialize(Integer[] chromosomes) : 该 方法 
以 随机 方式 初始 化 某 一 个 体 的 染色 体 ， 生 成 合法 的 个 体 
( 即 每 个 城市 只 访问 一 次 ) 。 
。selection(Individual[] population): 该 方 
法 实现 了 选择 操作 ， 获 取 一 个 种 群 的 最 优 个 体 。 它 用 一 
个 数组 返回 这 些 个 体 。 E 群 大 小 的 一 
半 。 可 以 测试 其 他 标准 以 确定 选 定 个 体 的 数目 。 使 用 最 
适合 函数 选 定 这 些 个 体 。 
crossover (Individual[] selected, int 
numberOfIndividuals, int size): 该 方法 接 
收 一 代 中 被 选 定 的 个 本 作为 参数 ， 3 
成 下 一 代 的 种 群 。 下 一 代 的 个 体 数 目 将 由 同名 的 参数 
( 即 numberofIndividuals ) 确定 。 个 体 的 染色 体 
数目 将 由 size 参数 确定 。 它 使 用 crossover 
(Individual, Individual, Individual, 
uU 方法 依据 两 个 选 定 个 体 生 成 两 个 新 个 
e crossover (Individual parent1, Individual 
parent2, Individual individual1, 
Individual individual2): 该 方法 实现 了 交叉 操 
E, 使用 parent1 全体 和 parent2 全体 生成 下 一 代 的 
1ndividua11 人 体 和 1ndividua12 全体 
。 evaluate(Individual[] population, int [] 
[] distanceMatrix): 该 方法 使 用 参数 中 接收 的 距 
离 矩 阵 ， 将 适应 度 画 数 应 用 到 种 群 的 全 部 个 体 。 最 后 ， 
该 方法 还 按照 解决 方式 从 优 到 劣 的 顺序 对 种 群 进行 排 
序 ， 使 用 evaluate(Individual，int[][]) 方 法 
评估 每 个 个 体 。 
。 evaluate(Individual individual, int[][] 
distanceMatrix) : 该 方法 将 适应 E 到 
AMA o 


ee 助 该 类 及 方法 ， 可 以 满足 实现 遗传 算法 解决 TSP 问 题 的 


6.3.2 ” 串 行 版 本 
我 们 使 用 如 下 两 个 类 实现 该 算法 的 串 行 版 本 。 


ES 
ba 
が | 
Sas 
aT 
HE 


e Seria1GeneticA1gorithm 类 : 用 于 实现 该 算法 ° 
。SerialMain 类 : 根据 输入 参数 执行 法 并 且 度 量 执行 时 
间 。 
HEAT — Px TE o 
a. SerialGeneticAlgorithm & 
该 类 实现 了 遗传 算法 的 串 行 版 。 从 内 部 来 看 ， 它 用 到 了 如 下 
四 个 属性 。 
。 含有 所 有 城市 之 间距 离 的 距离 矩阵 。 
・ 代 的 数 目 * 
。 种群 中 的 个 体 数 。 
。 每 个 个 体 中 的 染色 体 数 目 。 
该 类 也 有 一 个 初始 化 所 有 属性 的 构造 函数 。 


private int[][] distanceMatrix; 


private int numberOfGenerations; 
private int numberOfIndividuals; 


private int size; 


public SerialGeneticAlgorithm(int[][] distanceMatrix, 
int numberOfGenerations, int 
numberOfIndividuals) { 
this.distanceMatrix = distanceMatrix; 
this.numberOfGenerations = numberOfGenerations; 
this.numberOfIndividuals = numberOfIndividuals; 
size = distanceMatrix.length; 


} 


该 类 的 主 方法 是 calculate( ) 方 法 ・ 首 先 , 使用 
initialize() 方法 来 创建 初始 种 群 。 然 后 ， 评 估 初 始 种 
群 并 且 获 取 其 最 优 个 体 作为 算法 的 第 E 


public Individual calculate() { 
Individual best; 


Individual[] population = GeneticOperators.initialize( 
numberOfIndividuals, size); 
GeneticOperators.evaluate(population, distanceMatrix); 


best = population[0]; 


然后 ， 执 行 由 numberofGenerations 属性 判定 的 循环 。 
在 每 次 循环 中 ， 使 用 selection( ) 方法 获取 选 定 的 个 体 ， 
重用 crossover ) 方法 计算 下 一 代 、 评 估 新 一 代 ， 而 且 如 
果 新 一 代 的 最 优 解 优 于 到 目前 为 止 最 好 的 个 体 ， 那 么 圭 换 该 
个 体 。 循 环 结束 后 ， 返 回 最 优 个 体 作 为 算法 给 出 的 解 。 


for (int i = 1; i <= numberOfGenerations; i++) { 
Individual[] selected = 


GeneticOperators.selection(population); 
population = GeneticOperators.crossover (selected, 


numberOfIndividuals, 
size); 
GeneticOperators.evaluate(population, 
distanceMatrix); 


if (population[0].getValue() < best.getValue()) { 
best = population[0]; 


} 


return best; 


} 


B. SerialMain & 


该 类 针对 本 节 用 到 的 两 个 数据 集 执行 遗传 算法 ， 即 含有 15 个 
城市 的 1au15 和 含有 57 个 城市 的 kn57 ° 


main( ) 方法 必须 接收 两 个 参数 。 第 一 个 参数 是 将 要 创建 的 
代 的 数目 ,而 第 二 个 参数 是 项 每 一 代 应 有 的 个 体 数 目 。 


public class SerialMain { 
public static void main(String[] args) { 
Date start, end; 


int generations 


Integer .valueof (args[0]); 
int individuals 


Integer .value0f (args[1]); 


ag 


在 每 个 例子 中 ， 均 使 用 DataLoader 美 中 的 1oad( ) 方法 加 
载 距离 矩阵 ， 创建 SerialGeneticAlgorith 对 象 ， 在 执 
行 calculate( ) 方法 的 同时 度量 时 间 ， 并 且 在 控制 台 输 出 
执行 时 间 和 结果 e 


for (String name : new String[] { "lau15_dist", 
"kn57_dist" }) { 
int[][] distanceMatrix = 
DataLoader.load(Paths.get("data", 
name + 
WERL") 
SerialGeneticAlgorithm serialGeneticAlgorithm = new 
SerialGeneticAlgorithm(distanceMatrix, 
generations, 
individuals); 
start = new Date(); 
Individual result = 
serialGeneticAlgorithm.calculate(); 
end = new Date(); 
‚System. out.printin 


System.out.printin("Example:"+name); 


System.out.println("Generations: " + generations); 
System.out.printin("Population: " + individuals); 
System.out.printin("Execution Time: " + (end.getTime() 


start.getTime())); 


System.out.printin("Best Individual: " + result); 

System.out.printin("Total Distance: " + 
result.getValue()); 

„System. out.println 


6.3.3 ”并 发 版 本 
我 们 实现 了 遗传 算法 并 发 版 本 的 不 同类 ， 如 下 所 示 。 


SharedData 类 存放 了 所 有 将 在 任务 之 间 共 享 的 对 象 。 
GeneticPhaser 类 扩展 了 Phaser 类 并 且 重 载 了 7 它 的 
as 方法 ， 以 便当 所 有 任务 都 完成 第 一 阶段 后 执 
行 代码 。 
。ConcurrentGeneticTask 类 实现 了 那些 将 用 于 执行 遗传 
算法 各 个 阶段 的 任务 。 
。ConcurrentGeneticAlgorithm 类 使 用 前 面 的 类 实现 i 
专 算法 的 并 发 版 本 。 
・ ConcurrentMain 类 将 在 两 个 数据 中 集 测试 遗传 算法 的 并 
发 版 本 。 


[ak 


从 内 部 来 看 ，ConcurrentGeneticTask 类 将 执行 三 个 阶段 。 
第 一 阶段 是 选择 阶段 ， 而 且 只 能 由 一 个 任务 执行 。 第 二 个 阶段 是 
交叉 阶段 ， 所 有 的 任务 都 将 使 用 选 定 的 个 体 来 构建 新 的 一 代 。 而 
ad 段 是 评估 阶段 ， 所 有 任务 都 将 对 新 一 代 个 体 进 行 评 


汪 我 们 详细 来 看 这 其 中 的 每 一 个 类 。 
a. SharedData 类 


如 前 所 述 ， 该 类 包括 由 多 任务 共享 的 所 有 对 象 。 其 中 包括 如 
下 内 容 ・ 


。 种 群 数 组 ， 其 中 含有 某 一 代 的 全 部 个 体 。 
。 精 选 数 组 ， 其 中 含有 精 选 的 个 体 。 

。 一 个 名 为 index 的 原子 整 型 变量 。 这 是 唯一 线程 安全 的 
对 象 ， 用 于 指明 一 个 任务 要 生成 或 处 理 的 个 体 的 索引 。 
。 所 有 各 代 中 的 最 优 个 体 ， 将 作为 算法 的 解 返回 。 
。 距离 矩阵 ， 其 中 含有 城市 之 间 的 距离 。 


所 有 的 对 象 都 将 被 所 有 线程 共享 ， 但 我 们 只 需要 用 到 一 个 并 
发 数据 结构 。index 是 唯一 被 所 有 任务 高 效 共享 的 属性 。 其 
余 对 象 ， 要 么 仅 供 读 取 〈 例 如 距离 矩阵 ) ， 要 么 每 个 任务 将 
访问 对 象 《例如 种 群 数 组 和 精 选 数组 ) 的 不 同 部 分 ， 并 不 需 
要 使 用 并 发 数据 结构 或 者 同步 机 制 避 免 竞争 条 件 。 


=- 


public class SharedData { 


private Individual[] population; 
private Individual selected[]; 
private AtomicInteger index; 
private Individual best; 

private int[][] distanceMatrix; 


该 类 还 含有 用 来 获取 和 设 定 这 些 属性 取 值 的 方法 。 

ß. GeneticPhaser 类 
我 们 需要 在 任务 的 阶段 变化 时 执行 代码 ， 因 此 必须 实现 自己 
的 分 段 器 a 在 所 有 的 参与 方 都 
完成 某 个 阶段 且 即 将 开始 执行 下 一 阶段 时 执行 该 方法 。 
| 类 就 实现 了 这 村 に TEAS o EAT 

到 的 SharedData 对 象 ， 并 且 将 其 作为 构造 函数 的 参 

mo o 


private SharedData data; 


super(parties); 
this.data=data; 
} 


public class GeneticPhaser extends Phaser { 


public GeneticPhaser(int parties, SharedData data) { 


onAdvance( ) 方法 将 接收 分 段 器 的 阶段 编号 


H yè 


已 注册 


参与 


方 的 编码 作为 参数 。 从 内 部 来 看 ， 该 分 段 器 


编 每 次 阶段 变化 时 该 什 
算法 1 有三 


都 会 按 顺序 增长 。 


个 阶段 ， 将 被 多 次 执行 。 必须 将 分 段 器 的 阶 


整数 表示 阶 


段 


相反 , 


我 们 的 
段 纺 


号 转换 成 遗传 算法 的 阶 这 样 


段 编 E 


UI, 


オ 能 知道 任 


ESA, 


DAE TE 


执行 选择 队 


介 段 、 交 又 阶段 还 是 评 佑 阶段。 


为 实现 这 一 


KAM 


计算 分 段 器 的 阶段 编号 除 


3 的 余数 ， 如 


的 , 


下 


所 示 : 


protected boolean onAdvance(int phase, int 
registeredParties) { 
int realPhase=phase%3; 
if (registeredParties>0) { 
switch (realPhase) { 
case 0 
case 1: 
data.getIndex().set(0); 
break; 
case 2: 
Arrays.sort(data.getPopulation()); 


data.getBest().getValue()) { 


break; 
return false; 


return true; 


if (data.getPopulation()[0].getValue() < 


data.setBest(data.getPopulation()[0]); 


如 有 果 余数 为 0， 任 务 完 成 了 选择 阶段 并 且 准 备 执行 交叉 阶 
段 。 使 用 0 值 对 该 索引 对 象 进行 初 始 化 。 


如 果 余 数 为 1， 任 务 完成 交叉 阶段 并 且 准 备 执行 评估 阶段 。 
使 用 0 值 来 初始 化 该 索引 对 象 。 


最 后 ， 如 果 余 数 为 2， 王 务 已 经 完成 了 评估 阶 自 役 且 准备 再 次 
开始 选择 阶段 。 我 们 基于 适应 度 函 数 对 种 群 进行 排序 ， 并 且 
如 果 必 要 ， 还 要 更 新 最 优 个 


体 
请 注意 ， 这 种 方法 只 能 由 任务 中 一 个 独立 的 线程 执行 。 它 在 
前 一 阶段 结束 时 ， 由 最 后 一 个 任务 的 线程 执行 (在 
arriveAndAwaitAdvance() 调用 的 内 部 ) 。 其 他 任务 将 
休眠 并 且 等 待 分 段 器 。 


y. ConcurrentGeneticTask 类 


交 类 实现 了 那些 协作 执行 遗传 算法 的 任务 。 这 些 任务 执行 了 
算法 的 三 个 阶段 选择 、 交 叉 和 评估 ) 。 选 择 阶段 仅 由 一 个 
ESOT 〈 称 为 主任 务 ) ， 而 所 有 任务 都 将 执行 剩 下 的 阶 


Ex o 


o 


从 内 部 来 看 ， 该 类 用 到 了 四 个 属性 。 

。 一 个 GeneticPhaser 对 象 ， 用 于 在 每 个 阶段 结束 时 进 
行 任 务 同 步 。 
。 一 个 SharedData 对 象 ， 用 于 访问 共享 数据 。 
。 必 须 计 算 的 代 的 数目 。 

。 用 于 表明 是 否 为 主任 务 的 布尔 标志 。 


所 有 属性 将 在 该 类 的 构造 函数 中 初始 化 。 


public class ConcurrentGeneticTask implements Runnable { 
private GeneticPhaser phaser; 
private SharedData data; 
private int numberOfGenerations; 
private boolean main; 


public ConcurrentGeneticTask(GeneticPhaser phaser, int 
numberOfGenerations, boolean 
main) { 
this.phaser = phaser; 
this.numberOfGenerations = numberOfGenerations; 
this.main = main; 
this.data = phaser.getData(); 
} 


run( ) 方法 实现 了 遗传 算法 的 逻辑 。 它 有 一 个 生成 指定 代 
的 循环 。 正 如 前 面 提 到 的 ， 只 有 主任 务 会 执行 选择 阶段 。 
他 任务 将 使 用 arriveAndAwaitAdvance( ) 方法 等 待 该 阶 
段 结束 ， 参 看 如 下 代码 。 


@Override 
public void run() { 


Random rm = new Random(System.nanoTime()); 
for (int i = 0; i < numberOfGenerations; i++) { 
if (main) { 


data.setSelected(GeneticOperators.selection(data 
.getPopulation())); 


} 


phaser.arriveAndAwaitAdvance(); 


第 二 阶段 是 交叉 阶段 。 使 用 在 SharedData 类 中 存放 的 
AtomicInteger 变量 索引 获得 种 群 数组 (每 个 任务 都 会 计 
算 ) 中 的 下 一 个 位 置 。 如 前 所 述 ， 交 叉 操作 生成 ]】 

MA, E 每 个 王 务 首先 在 种 群 数组 中 保留 两 个 位 置 。 为 达 
到 这 一 目的 ， 使 用 getAndAdd(2) 方法 返回 变量 的 实际 
值 ， 并 且 按 照 两 个 单位 的 步 长 递增 其 取 值 。 


AtomicInteger 变量 是 一 个 原子 变量 ， 因 此 并 没有 用 到 任 
何 同步 机 制 ， 这 是 原子 变量 的 固有 属性 。 参 看 下 面 的 代码 。 


// 交叉 阶段 
int individualIndex; 
do { 
individualIndex = data.getIndex().getAndAdd(2); 
if (individualIndex < data.getPopulation().length) { 
int secondIndividual = individualIndex++; 


int piIndex = rm.nextInt 
(data.getSelected(). length); 
int p2Index; 
do { 
p2Index = rm.nextInt (data.getSelected(). length); 
} while (piIndex == p2Index); 


Individual parent1 = data.getSelected() [p1Index]; 

Individual parent2 = data.getSelected() [p2Index]; 

Individual individual1 = data.getPopulation() 
[individualIndex]; 

Individual individual2 = data.getPopulation() 
[secondIndividual]; 

GeneticOperators.crossover(parenti, parent2, 
individual1, individual2); 


} 


} while (individualIndex < data.getPopulation().length); 
phaser.arriveAndAwaitAdvance(); 


新 种 群 的 所 有 个 体 生 成 之 后 ， 各 任务 将 使 用 


arriveAndAwaitAdvance() 方法 同步 该 阶段 的 末尾 。 
最 后 阶段 是 评估 阶段 。 我 们 再 次 使 用 AtomicInteger % 

引 。 每 个 任务 都 获取 该 变量 的 实际 值 ， 该 值 代表 了 个 体 在 种 
群 中 的 位 置 ， 并 且 使 用 getAndIncrement( ) 值 增加 取 

值 。 一 旦 对 所 有 个 体 的 评估 结束 ， 就 可 使 用 
arriveAndAwaitAdvance() 方法 同步 该 阶段 的 末尾 。 请 
记 住 ， 所 有 任务 都 完成 该 阶段 后 ，GeneticPhaser 类 将 执 
行 排列 种 群 数 组 的 代码 ， 如 果 有 必要 ， 还 要 更 新 最 优 个 体 变 
=, 如 下 所 示 : 


长 


// 评估 阶段 

do { 
individualIndex = data.getIndex().getAndIncrement(); 
if (individualIndex < data.getPopulation().length) { 


GeneticOperators.evaluate(data.getPopulation() 
[individualIndex], 
data.getDistanceMatrix()); 


} while (individualIndex < 
data.getPopulation().length); 
phaser.arriveAndAwaitAdvance(); 


} 


phaser.arriveAndDeregister(); 


} 


最 后 ， 当 所 有 的 代 都 计算 完毕 后 ， 各 任务 使 
arriveAndDeregister() 方法 表示 执行 完毕 ， 这 样 分 有 


器 就 进入 终止 状态 。 


. ConcurrentGeneticAlgorithm 类 


该 类 是 遗传 算法 的 外 部 接口 。 从 内 部 来 看 ， 该 类 创建 、 局 
那些 计算 不 同 代 的 任务 ， 等 竺 这些 任务 完成 。 该 类 用 
了 四 个 属性 : 代 的 数目 、 代 的 个 体 数目 、 每 个 个 体 的 染 
色 体 数目 以 及 距离 矩阵 ， 如 下 所 示 : 


a] 


dir 


um 
J 


public class ConcurrentGeneticAlgorithm { 


private int numberOfGenerations; 
private int numberOfIndividuals; 
private int[][] distanceMatrix; 
private int size; 


public ConcurrentGeneticAlgorithm(int[][] 
distanceMatrix, int 
numberOfGenerations, int 

numberOfIndividuals) { 

this.distanceMatrix=distanceMatrix; 

this.numberOfGenerations=numberOfGenerations; 

this.numberOfIndividuals=numberOf Individuals; 

size=distanceMatrix.length; 


} 


calculate() 方法 执行 遗传 算法 并 且 返 回 最 优 个 体 。 首 
先 ， 它 使 用 initialize( ) 方法 创建 最 初 的 种 群 并 对 该 利 
群 进行 评估 ， 同 时 创建 并 初始 化 SharedData 对 象 ， 其 中 
含有 所 有 必要 的 数据 ， 如 下 所 示 : 


public Individual calculate() { 
Individual[] population= 


GeneticOperators.initialize(numberOfIndividuals, size); 
GeneticOperators.evaluate(population, distanceMatrix); 


SharedData data=new SharedData(); 
data.setPopulation(population); 
data.setDistanceMatrix(distanceMatrix); 
data.setBest(population[0]); 


RE, MES MES > (E 
要 创建 的 任务 数 ， 该 数 Runtime 类 的 
availableProcessors() 方法 返回 。 我 们 还 创建 
GeneticPhaser 对 象 同 步 这 些 任 务 的 执行 ， 如 下 所 示 : 


计算 机 可 用 的 硬件 线程 数 作为 将 


¿E an 


TE 


int numTasks=Runtime.getRuntime().availableProcessors(); 
GeneticPhaser phaser=new GeneticPhaser(numTasks, data); 


ConcurrentGeneticTask[] tasks=new 
ConcurrentGeneticTask[numTasks]; 
Thread[] threads=new Thread[numTasks]; 


tasks[0]=new ConcurrentGeneticTask(phaser, 
numberOfGenerations, 
true); 
for (int i=1; i< numTasks; i++) 
tasks[i]=new ConcurrentGeneticTask(phaser, 
numberOfGenerations, 


false); 
} 


RE, 倒 建 Thread 对 象 执行 这 些 任务 ， 启 动 任务 并 且 等 待 
二 执行 结束 。 最 后 ， 返 回 存放 于 ShareData 对 象 的 最 优 个 
体 , 如 下 所 示 : 


for (int i=0; i<numTasks; i++) { 
threads[i]=new Thread(tasks[i]); 
threads[i].start(); 


for (int i=0; i<numTasks; i++) { 
try { 
threads[i].join(); 
} catch (InterruptedException e) { 
e.printStackTrace(); 


} 


return data.getBest(); 


e. ConcurrentMain & 


该 类 针对 本 节 用 到 的 两 个 数据 集 执行 遗传 算法 ， 即 含有 15 个 
城市 的 1au15 和 含有 57 个 城市 的 kn57。 该 类 的 代码 与 
SerialMain 类 相似 ， 只 不 过 使 用 
ConcurrentGeneticAlgorithm 而 非 
SerialGeneticAlgorithm ° 


6.3.4 ”对 比 两 种 解决 方案 


了 测试 ， 看 看 哪 
自 City Distance D 


現在 对 两 


前 所 壕 ， 


RAPHE (100、1000 和 
(10 ヽ 100 和 1000) 


ER (请 
羊 可 以 在 Java 
很 好 的 解 妆 


o 


RAR, 


ENJE 
imeM 
不 同 的 架构 
グミ 


台 计 算 机 
AGA 


LRC E Y Intel Core i5- 


au15 ME A57 MIET 


illis() EknanoTim 
上 分 别 执行 这 些 算 例 


16 GB 的 RAM ° 该 处 理 


和 具有 更 好 的 性 能 。 如 
个 数据 集 一 一 

57 。 我 们 也 测 
， 以 及 


利 
atasets 的 
TAIK 
10 000 條 全体 ) 


5 


名 为 “Code Tools: jmh” 的 文章 ) 
中 实现 微型 基 


基准 测试 。 使 用 
可 以 直接 使 
e() 方法 度量 
107K ° 


HI 


间 。 


对 > 


Las > Windows 7 
IMA, 


53004: 
器 有 


AN 


线程 ， 


这 样 我 人 


核 可 以 执行 两 1 


。 男 一 全 计算 机 配 
操作 系统 和 8GB 的 


。 Lau15 数据 集 
第 一 个 数据 集 的 执行 时 间 如 下 


LEMA 


し 


个 并 行 线程 。 


1 


J AMD A8-640 处 理 器 、Windows 10 
RAM。 该 处 理 器 


四 个 核 。 


有 


(単位 : 


种 群 


AMD 架 构 


100 1 


000 10 000 


串 行 版 | 并 发 版 


串 行 版 


并 发 版 | 串 行 版 | 并 发 版 


53.98 
180.24 


1592715 
42.80 |58.61 


208.67 121.10 
1849.15 |904.76 


54.40 
96.54 


148.01 | 117.93 


1412.81 


517.14 |15040.81 | 5660.30 


种 群 


Intel 架 构 
100 


1000 


10 000 


串 行 版 | 并 发 版 
9.27 |15.79 


代 


10 28.67 


BTR 


串 行 版 | 并 发 版 
117.01 |93.29 


并 发 版 
29.12 


100 45.53 |25.08 [115.41 


87.38 | 1041.76 | 756.16 


1000 94.92 |74.70 


724.77 


440.36 |7867.56 | 4464.52 


。 Kn57 数据 集 
第 二 个 数据 集 的 执行 时 间 如 下 


(单位 : E 


AMD 


种 群 


构 100 1 


000 10 000 


mtr | 并 发 | ae 
A | 申 行 版 


并 发 版 | 串 行 版 | 并 发 版 


25.29 |31.33 |104.72 


124.88 |889.07 |347.62 


95.21 |76.80 | 795.64 


280.20 |8479.72 |3052.44 


778.21 | 267.67 


7913.98 


83 29 


aid 131.09 | 417.48 


Intel ZE 种 群 
构 
100 1000 10 000 


EAR | mern | 并 发 版 | 申 行 版 | 并 发 版 


10 20.51 |32.04 |69.27 |86.12 |449.80 274.99 
100 57.46 |56.54 |418.39 |224.93 |4423.52 |2183.10 


41 21 


1000 417.38 | 221.47 | 4069.09 | 2161.46 714.95 858.51 


在 两 种 架构 上 ， 该 算法 针对 两 个 数据 集 的 表现 情况 相 
以 。 你 会 发 现 ， 当 个 人 体 数目 和 代 的 数目 都 较 少 时 ， 算 法 
的 捉 行 版 本 执行 时 间 较 优 ， 而 当 个 体 数 或 代 的 数目 增 


加 时 ， 并 发 版 本 将 会 有 更 好 的 吞吐 量 。 以 代 的 数目 为 
1000 且 个 体 数 目 为 10 000 的 kn57 数据 集 为 例 ， 可 得 出 
加 速 比 如 下 。 

o Tserial 83 131.09 x 

SAMD = Tamet 2941748 8? 

SIntel = Teria = Ea = 2 = 1.91 

Tconcurrent 21 858.51 
6.4 “小结 


本 章介 O 发 API 提 供 的 最 强大 的 同步 机 制 之 一 : 分 

RR o 的 的 是 为 执行 分 为 多 阶段 的 算法 PEREN 
同步 。 在 所 有 任务 都 完成 上 二 阶段 之 前 ， 任 何 任务 都 不 能 
始 执行 下 一 阶段 。 


分 段 器 必须 知道 任务 要 进行 同步 的 任务 数量 。 必 须 使 用 构造 
函数 、bulkRegister( ) 方 法 或 register( ) 方法 在 分 段 
器 中 注册 任务 。 


分 段 器 可 以 以 不 同方 式 同步 任务 。 最 常见 的 方式 是 使 用 
arriveAndAwaitAdvance() 方法 告诉 分 段 器 ， 任 务 已 经 
完成 了 一 个 阶段 的 执行 ， 要 继续 执行 下 一 阶段 。 该 方法 将 休 
眠 该 线程 直到 剩 下 的 任务 都 完成 当前 阶段 为 止 。 不 过 ,也 
以 使 用 其 他 方法 同步 任务 。arrive( ) 方法 用 于 通知 分 段 器 
当前 阶段 已 经 完成 ， 但 是 不 会 等 待 剩 下 的 任务 (使 用 该 方法 
时 要 非常 小 心 ) 。arriveAndDeregister() 方法 用 于 告 
知 分 段 器 当前 阶段 已 经 完成 ， 而 且 并 不 想 在 分 段 器 中 继续 等 
待 (通常 是 因为 已 经 完成 了 任务 ) 。 最 后 ， 
awaitAdvance( ) 方法 可 等 待 当前 阶段 结束 。 


ad 
fi 


通过 使 用 onAdvance( ) 方法 ， o 
所 有 任务 都 完成 当前 阶段 且 准备 开始 新 阶段 时 执行 代码 。 
A ERBEN 并 Ems 
参与 者 在 分 段 器 中 的 编号 作为 参数 。 你 可 以 扩展 Phaser 
类 ， 并 且 重 载 该 方法 以 在 两 个 阶段 之 间 执行 代码 。 


分 段 器 可 以 处 于 活动 和 终止 两 种 状态 。 同 步 任务 时 进入 活动 
状态 ， 完 成 自己 的 工作 时 进入 终止 状态 。 所 有 参与 方 调 用 
arriveAndDeregister() 方法 时 或 者 onAdvance( ) 方 
法 返回 true E (默认 情况 下 ， 总 是 返回 false ) Ef, 分 段 


ver 


器 将 进入 终止 状态 。 当 Phaser 类 处 于 终止 状态 时 ， 它 不 再 
接收 新 的 参与 方 ， 而 且 同 步 方 法 将 立即 返回 。 


使 用 Phaser RMT SRE: REF TAS Me h 
法 。 ann, E TANIA RIEE, 发 版 本 在 
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下 一 章 将 介绍 如 何 使 用 另 一 个 Java 并 发 框架 解决 特殊 类 型 的 
问题 。 这 就 是 Fork/Join 框 架 ， 用 于 以 并 发 方式 执行 那些 可 以 
采用 分 治 算法 进行 求解 的 问题 。 它 基于 一 个 采用 了 特殊 工作 
窃取 算法 的 执行 器 ， 这 种 算法 能 够 使 执行 器 的 性 能 最 大 化 。 


第 7 章 优化 分 治 解决 方案 : 
Fork/Join 框 架 


第 3~5 章 介绍 了 如 何 使 执行 器 这 和 机 制 来 改进 执行 大 量 并 
发 任务 的 并 发 应 用 程序 的 性 能 。Java 7 并 发 API 通 过 Fork/Join 
框架 引入 了 一 种 特殊 的 执行 器 。 该 框架 的 设计 目的 是 针对 那 
些 可 以 使 用 分 治 设计 范式 来 解决 的 问题 ， 实 现 最 优 的 并 发 解 
决 方案 。 本 章 将 介绍 以 下 主题 。 


Fork/Join 框 架 简 介 。 

第 一 个 例子 : k-means RHIA 9 
第 二 个 例子 : 数据 筛选 算法 。 
第 三 个 例子 : 归并 排序 算法 。 


m 
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7.1 ”Fork/Join 框 架 简介 


执行 器 框架 是 在 Java 5 中 引入 的 ， 它 提供 了 一 种 执行 并 发 任 
务 的 机 制 ， 而 无 须 创 建 、 启 动 和 结束 线程 。 该 框架 采用 了 一 
个 线程 池 ， 该 线程 池 可 以 执 从 执行 器 的 任务 ， 并 且 


针对 多 个 任务 重用 这 些 线程 。 机 制 为 程序 设计 人 员 提 供 
了 如 下 便利 。 

。 并 发 应 用 程序 的 编程 更 加 简单 ， 因 为 不 再 需要 担心 线程 
的 创建 。 

。 控制 执行 器 和 应 用 程序 所 使 用 的 资源 更 加 简单 。 你 可 以 
创建 一 个 仅 使 用 预定 数目 线程 的 执行 器 。 如 果 发 送 较 多 
ua MA A 到 

。 执行 器 通过 重用 线程 缩减 了 创建 线程 所 引入 的 开销 。 从 
A 部 来 看 ， 它 管理 了 一 个 线程 池 ， 重 用 线程 来 执行 多 个 
BEI 2 

分 治 算法 是 一 种 非常 流行 的 设计 方法 。 为 了 采用 这 种 方法 解 
决 问题 ， 要 将 问题 划分 为 较 小 的 问题 。 可 以 采用 递归 方式 重 
复 该 过 程 ， 直 到 需要 解决 的 问题 变 得 很 小 ， 可 以 直接 解决 。 
必须 很 小 心 选择 可 o pl, E 题 规模 选择 不 
当 会 导致 糟糕 的 性 能 o 问题 可 以 使 用 执行 器 解决 ， 但 是 

为 了 更 高 效 地 解决 问题 Java 7 并 发 API 引 入 了 ForkJoin 框 
カロ 


该 框架 基于 ForkJoinPool 类 ， 该 类 是 一 种 特殊 的 执行 
器 ， 具 有 fork( ) 方法 和 join( ) 方法 两 个 操作 (以 及 它们 
的 不 同 变 体 ) ， 以 及 一 个 被 称 作 工 作 窃 取 算法 的 内 部 算 
法 * 本 章 将 通过 实现 述 三 个 例子 ， 介 绍 Fork/Join 框 架 的 基 
本 特征 、 局 限 性 和 组 件 

。 用 于 对 文档 集 进 行 聚 类 的 k-means 聚 类 算法 。 

© 一 个 获取 满足 特定 标准 的 数据 的 数据 筛选 算法 。 

。 以 高 效 方式 对 大 型 数据 分 组 进行 排序 的 归并 排序 算法 。 
7.1.1 ”Fork/Join 框 架 的 基本 特征 
如 前 所 述 ，Fork/Join 框 架 必 须 用 于 解决 基于 分 治 方法 的 问 
题 。 必 须 将 原始 问题 划分 为 较 小 的 问题 ， 直 到 问题 很 小 ， 可 
以 直接 解决 。 有 了 这 个 框架 ， 待 实现 任务 的 主 方法 便 如 下 所 
IR: 
if ( problem.size() > DEFAULT_SIZE) { 

divideTasks(); 

executeTask(); 

taskResults=joinTasksResult(); 

return taskResults; 
} else { 

taskResults=solveBasicProblem(); 

return taskResults; 
} 
该 方法 最 大 的 好 处 是 可 以 高 效 分 割 和 执行 子 任务 ， 并 且 获 取 
子 任务 的 结果 以 计算 父 任务 的 结果 。 该 功能 由 
ForkJoinTask 类 提供 的 如 下 两 个 方法 支持 。 

・ fork( ) 方法 :该 方法 可 以 将 一 个 子 任务 发 送 给 

Fork/Join 执 行 器 。 
* join() 方法 ， 该 方法 可 以 等 待 一 个 子 任务 执行 结束 后 
RE LEE = 

你 将 在 下 文 的 例子 中 看 到 ， 这 些 方法 都 有 不 同 的 变 体 。 
Fork/Join 框 架 还 有 另 一 个 关键 特性 ， 即 工作 窃取 算法 。 该 算 
法 确定 要 执行 的 任务 。 当 一 个 任务 使 用 join( ) 方法 等 待 某 
个 子 任务 结束 时 ， 执 行 该 任务 的 线程 将 会 从 任务 池 中 选取 另 
一 个 等 待 执行 的 任务 并 且 开 始 执行 。 通 过 这 种 方式 ， 
行 器 的 线程 总 是 通过 改进 应 用 程序 的 性 能 来 执行 
Java 8 在 Fork/Join 框 架 中 提供 了 新 特性 。 现 在 ， 每 个 
Java 应 用 程序 都 有 一 个 默认 的 ForkJoinPool ， 称 作 公用 
池 “。 可 以 通过 调用 静态 方法 
ForkJoinPool.commonPool() 获得 这 样 的 公用 池 ， 而 
不 需要 采用 显 式 方法 创建 (尽管 可 以 这 样 做 ) 。 这 种 默认 的 
Fork/Join 执 行 器 会 自动 使 用 由 计算 机 的 可 用 处 理 器 确定 的 线 
程 数 。 可 以 通过 更 改 系 统 属性 值 


(java.util.concurrent. 


parallelism) A Ef 


修改 这 


默认 行为 


ForkJoinPool.common. 


Java API 的 有 些 功 能 可 使 用 Fork/Join 框 架 来 实现 并 发 操作 。 
例如 ，Arrays 美 中 的 para11e1Sort( ) 方法 (可 以 以 
行 方 式 进行 数组 排序 ) 以 及 Java 8 中 引入 的 并 行 流 (将 在 第 8 
章 和 第 9 章 中 介绍 ) 都 用 到 了 该 框架 。 


7.1.2 ”Fork/Join 框 架 的 局 限 性 
尽管 Fork/Join 框 架 可 以 用 于 解决 一 些 特定 类 型 的 问题 ， 但 
解决 问题 时 必 须要 考虑 到 它 的 局 限 性 ， 主 要 有 如 下 几 个 方 


面 。 


。 不 再 进行 细 分 的 基本 问题 的 规模 既 不 能 过 大 也 不 能 过 
小 。 按 照 Java API 文 档 的 说 明 ， 该 基本 问 题 的 规模 应 该 
介 于 100 到 10 000 个 基本 计算 步骤 之 间 。 

。 数据 可 用 前 ， 不 应 使 用 阻塞 型 IO 操作 ， 例 如 读 取 用 

输入 或 者 来 自 网 络 套 接 字 的 数据 。 这 样 的 操 9 

CEU 核 资源 空闲 ， 降低 并 行 处 理 等 级 ， 进 而 使 性 能 无 法 

达到 最 

。 不 能 在 en 交 验 异常 ， 必 须 编写 代码 来 处 理 异 

常 〈 例 如 ， 陷 入 未 经 校 验 的 RuntimeException ) 。 

在 后 面 的 例子 中 你 将 看 到 ， 对 于 未 校 验 异常 有 一 种 特殊 

的 处 理 方式 。 


7.1.3 ”Fork/Join 框 架 的 组 件 


Fork/Join 框 架 包 括 四 个 基本 类 。 


Ju 


ForkJoinPool 类 : 该 类 实现 了 Executor 接口 和 
ExecutorService 接 执行 Fork/Join 任 务 时 将 用 
到 Executor 接 。Java 提 供 了 一 个 默认 的 
ForkJoinPool 対象 MARW) ， 但 是 如 果 需 
要 ， 你 还 可 以 创建 一 些 构造 函数 。 你 可 以 指定 并 行 处 理 
的 等 级 (运行 并 行 线程 的 最 大 数目 ) 。 默 认 情 况 下 ， 
将 可 用 人 处理 器 的 数目 作为 并 发 处 理 等 级 。 
ForkJoinTask 类 : 这 是 所 有 Fork/Join 任 务 的 基本 
象 类 。 该 类 是 一 个 抽象 类 ， 提 供 了 fork( ) 方法 和 
join() 方法 ， 些 变 体 。 该 类 还 实现 
了 Future 接口 ， 提 供 了 一 些 方法 来 判断 任务 是 否 以 正 
BIER, 它 是 否 被 撤销 或 者 是 否 抛 出 了 一 个 未 校 
验 异 常 。RecursiveTask 类 、RecursiveAction 
た 利 CountedComp1eter 类 提供 了 compute( ) 抽象 
方法 。 为 了 执行 实际 的 计算 任务 ， 该 方法 应 该 在 子 类 中 
SEDI o 

RecursiveTask 类 : 该 类 扩展 了 ForkJoinTask 
类 。RecursiveTask 也 是 一 个 抽象 类 ， 而 且 应 该 作为 
实现 返回 结果 的 Fork/Join 任 务 的 起 点 。 
Re 
类 
该 


fava 


Ea 


DE 


cursiveAction 类 : 该 类 扩展 了 ForkJoinTask 
s。RecursiveAction 类 也 是 一 个 抽象 类 ， 而 且 应 
和 为 实现 不 返回 结果 的 Fork/Join 任 务 的 起 点 。 
Countedcompleter 类 : 该 类 扩展 了 
ForkJoinTask 类 。 该 类 应 作为 实现 任务 完成 时 触发 
另 一 任务 的 起 点 。 


72 ”第 一 个 例子 : k-means RRA 


k-means RX 


算法 将 预先 未 分 类 的 项 集 分 组 到 预定 的 K 个 


复 。 它 在 数据 挖 据 和 机 器 学 习 领域 非常 流行 ， 并 且 在 这 些 领 
域 中 用 于 以 无 监督 方式 组 织 和 分 类 数据 。 
每 一 项 通常 都 由 一 个 特征 (或 者 说 属性 ) 向 量 (这 里 使 用 向 
量 是 作为 一 个 数学 概念 而 非 数据 结构 ) 定义 。 所 有 项 都 有 相 
同 数目 的 属性 。 每 个 篮 也 由 一 个 含有 同样 属性 数目 的 向 量 定 
义 ， 这 些 属性 描述 了 所 有 可 分 类 到 该 篮 的 项 。 该 向 量 叫 作 
centroid。 例 如 ， 如 果 这 些 项 是 用 数值 型 向 量 定 义 的 ， 那 
入 簇 就 定义 为 划分 到 该 簇 的 各 项 的 平均 值 。 
该 算法 基本 上 可 以 分 为 四 个 步骤 

。 初始 化 : 在 第 一 步 中 ， 要 创建 最 初代 表 K MA 

通常 ， 你 可 随机 初始 化 这 些 向 量 量 。 


。 指 派 ， 然后 ， 你 可 以 将 每 


RER, ATL 


欧 氏 距离 作为 距离 度量 方式 ， 


项 划分 到 一 个 簇 中 。 为 了 
计算 项 和 每 个 乒 之 间 的 距离 。 可 以 使 用 


计算 代表 项 的 向 量 和 代 


表 艇 的 向 量 之 间 的 距离 。 之 后 ， 你 可 以 将 该 项 分 配 到 与 


e 
a 


AREA © 


= 


To 
回 


Nol D+ 4 
aa 


该 算法 有 如 下 两 个 主要 局 限 。 
。 如 前 所 述 ， 如 果 随 机 初始 化 最 初 的 篮 向 量 ， 那 么 对 同一 


项 进行 分 类 之 后 
每 个 簇 的 向 量 。 如 前 所 壕 ， 

项 的 向 量 的 均值 。 

最 后 ， 检 和 查 是 否 有 些 项 改变 了 为 其 指派 的 艇 。 
í FAME, m # 妥 再 次 转 入 指派 步 又 ES 否则 法 结 
， 所 有 项 都 已 分 类 完毕 


A L E 新 计 
通常 = | 算 划 分 bra 


了 两 次 分 类 的 结果 是 不 同 的 。 
是 预先 定义 好 的 。 从 分 类 的 视角 来 看 ， 如 果 属 


测试 我 们 的 法 


得 不 好 将 会 导致 福 粒 的 结果 。 
在 对 不 同类 型 的 项 做 和 


需要 实现 一 个 应 用 程序 来 对 某 


农 类 分 析 时 该 算法 仍然 广 受 


> 
ud 
+ 


ma 


使 用 的 是 该 网 页 集 的 缩减 


小 EL 
> 


取 了 1000 个 文档 。 为 了 表示 每 个 文档 ， 必 须 使 


模型 表示 FEIA 


表示 方法 中 ， 每 个 文档 


te Sa 
Sei TEA ft HAIN Sa DIF DE o 
EE + 


表示 ， 向 量 的 每 个 维 


的 取 值 则 是 


的 重要 程度 ・ 


at 
Hr 
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E 

Do ml 
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ak 
IE 
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度 都 代表 一 个 单词 或 者 


个 指标 ， 它 定义 了 该 单词 或 术 


时 ， 向 量 维度 的 数量 和 整 


中 不 同 单词 的 数量 相同 ， 


这 样 向 量 中 就 会 有 大 量 为 


应 用 程序 的 性 


的 50 个 词 
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我 们 使 用 两 


movies.words 文 件 


个 


为 代表 每 个 文档 


词 重要 性 的 


文件 : movies .words 文 们 F 和 movie.data 文 件 。 


个 

0 的 值 ， 因 为 每 个 文档 都 不 会 包含 所 有 单词 。 你 可 以 使 用 一 
f RRRA RE BOLL, MAT 
省 


au 
HE ? 


1， 选 择 了 术语 频次 - 逆 文 档 频 次 (TF-IDF 


指标 ， 
的 术语 。 


而 且 将 具有 最 高 TF-IDF 值 


F 


存放 J RE 


3 到 的 所 有 单词 , 


movie.data 中 存放 了 每 个 文档 的 表示 。movies.data 文 件 的 格 
式 如 下 。 


10000202, rabona: 23.039285705435507, 1979 : 8 . 09314752937111 
,argentina: 7.953798 

614698405, 1a:5.440565539075689, argentine: 4. 0585773383634 
69, editor:3.0401515 

284855267, Spanish: 2.9692083275217134, image_size:1.370115 
8713905104, narrator 
:1.1799670194306195, budget :0.286193223652206, starring:0. 
25519156764102785,c 
ast:0.2540127604060545, writer :0.23904044207902764, distri 
butor:0.20430284744 

786784, cinematography: 0.182583823735518, music:0.16756712 
28903468, caption:0. 

14545085918028047, runtime:0.127767002869991, country:0.12 
493801913495534, pro 
ducer:0.12321749670640451, director :0.11592975672109682,1 
inks:0.079255823038 

12376, image: 0.07786973207561361, external:0.0776442710874 
6134, released:0.074 

47174080087617, name:0.07214163435745059, infobox:0.061511 
53983466272, film:0. 

035415118094854446 


tH, 10000202 是 文档 的 标识 符 ， 而 文件 其 余 的 部 分 都 按 
照 “单词 :tfxidf 值 ”的 格式 排列 。 


与 其 他 例子 一 样 ， 我 们 将 实现 串 行 版 和 并 发 版 ， 并 且 执行 两 
个 版 本 以 验证 Fork/Join 框 染 为 该 算法 带 来 的 性 和 


7.2.1 公共 类 
有 行 版 和 并 发 版 有 一 些 共同 特征 ， 如 下 所 示 。 
于 加 载 文 档 集 中 构 


HH 


。 VocabularyLoader 类 : 这 个 类 
成 词汇 表 的 单词 列表 。 

e Word 类 、Document 类 和 DocumentLoader 类 : 这 
三 个 类 用 于 加 载 有 关 文 档 的 信息 。 在 串 行 版 和 并 行 版 算 

法 中 ， 这 些 类 几乎 没有 差别 。 

。DistanceMeasure 类 : 该 类 用 于 计算 两 个 向 量 之 间 
的 欧 氏 距离 。 

e DocumentCluster É: 该 类 用 于 存储 有 关 艇 的 信 


o 


$ 


《DA 


下 面 详细 说 明 一 下 这 些 类 。 
a. VocabularyLoader 类 


如 前 所 述 ， 数 据 存放 在 两 个 文件 中 。 其 中 一 个 是 
movies.words 文 件 。 该 文件 存放 的 列表 含有 文档 中 用 到 
的 所 有 词 。VocabularyLoader 类 会 将 该 文件 转换 成 
HashMap。 该 HashMap 的 键 是 整个 单词 ， 而 其 值 为 

个 代表 单词 在 列表 中 索引 位 置 的 整数 值 。 我 们 使 用 该 索 
引 来 判定 单词 在 表示 文档 的 向 量 空间 模型 中 的 位 置 。 


该 类 只 有 一 个 方法 ， 即 1oad( ) ， 该 方法 接收 文件 路 径 
为 参数 ， 并 且 返 回 该 HashMap > 


H 


o 


public class VocabularyLoader { 


public static Map<String, Integer> load (Path 
path) throws 


IOException { 

int index=0; 

HashMap<String, Integer> vocIndex=new 
HashMap<String, 


Integer>(); 
try(BufferedReader reader = 
Files .newBufferedReader (path) ){ 
String line = null; 


while ((line = reader.readLine()) != null) { 
vocIndex.put(line, index ); 
index++; 


return vocIndex; 


B. Word & ` Document 美和 DocumentLoader É 


这 些 类 存储 了 将 在 算法 中 用 到 的 文档 的 所 有 信息 。 
先 ，Word 类 存放 了 一 个 文档 中 某 个 单词 的 信息 ， 这 包 


括 该 单词 的 索引 及 其 在 文档 中 的 TF-IDF 值 。 该 类 仅 包 括 
这 些 属性 〈 分 别 是 int 型 和 double 型 ) , 实现 ] 
Comparable 接口 来 根据 两 个 单词 的 TF-IDF 值 对 它们 
进行 排序 。 这 里 不 再 介绍 该 类 的 源 代码 。 


Document 类 存放 了 有 关 文 档 的 所 有 人 信息。 首先， 该 类 
一 个 存放 文档 中 单词 的 Word 对 象 数组 ， 它 是 向 量 空 
司 模型 的 表示 形式 。 为 了 节省 内 存 空 间 ， 我 们 仅 存储 文 
档 中 用 到 的 单词 。 然 后 ， 该 类 还 有 i 

于 表示 存放 文档 的 文件 名 。 最 后 ， 该 类 还 有 一 个 


DocumentCluster 对 象 ， 于 表示 与 该 文档 相关 的 
得。 该 类 还 包括 一 个 构造 画 数 ， 于 初始 化 这 些 属性 和 


方法 以 获取 和 设置 其 取 值 。 我 们 仅 给 出 
setCluster() 方法 的 代码 。 在 本 例 中 ， 该 方法 将 返 
回 一 个 布尔 值 ， 这 个 值 表明 5 E 
还 是 一 个 新 值 。 我 们 将 用 该 


TL 
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: 否 应 该 停止 算法 。 


public boolean setCluster(DocumentCluster cluster) { 
if (this.cluster == cluster) { 
return false; 
} else { 
this.cluster = cluster; 
return true; 
} 
} 


最 后 , DocumentLoader 类 用 于 加 载 有 关 文 档 的 信 
息 。 它 含有 一 个 静态 方法 1oad( ) ， 该 方法 接收 文件 路 


径 和 存放 词汇 表 的 HashMap 作为 参数 ， 返 回 一 个 
Document 对 象 的 数组 。 该 方法 逐 行 加 载 文件 ， 并 且 将 
每 一 行 都 转换 成 为 一 个 Document 对 象 。 代 码 如 下 : 


o 


public static Document[] load(Path path, Map<String, 
Integer> 
vocIndex) throws 
IOException{ 
List<Document> list = new ArrayList<Document>(); 
try(BufferedReader reader = 
Files.newBufferedReader(path)) { 
String line = null; 
while ((line = reader.readLine()) != null) { 
Document item = processItem(line, vocIndex); 
list.add(item) / 
} 


Document[] ret = new Document[list.size()]; 
return list.toArray(ret); 


为 了 将 文本 文件 的 某 一 行 转换 成 一 个 Document WTR, 
可 以 使 用 processItem( ) 方法 。 


private static Document processItem(String 
line, Map<String, 

Integer> 
vocIndex) { 


String[] tokens = line.split(","); 
int size = tokens.length - 1; 


Document document = new Document(tokens[0], size); 
Word[] data = document.getData(); 


for (int i = 1; i < tokens.length; i++) { 
String[] wordInfo = tokens[i].split(":"); 
Word word = new Word(); 
word. setIndex(vocIndex.get(wordInfo[0])); 
word.setTfidf(Double.parseDouble(wordInfo[1])); 
data[i - 1] = word; 

} 

Arrays.sort(data); 

return document; 


如 前 所 述 ， 一 行 中 的 第 一 项 是 文档 的 标识 符 。 从 
tokens[0] 中 获取 该 标识 符 并 且 将 其 传送 给 
Document 类 的 构造 函数 。 然 后 ， 对 于 tokens F% 
数组 中 剩 下 的 值 ， 将 其 再 次 分 割 ， 进 而 获得 每 个 单词 的 
信息 ， 包 括 整 个 单词 及 其 TF-IDF 值 


Ly J 


uo 
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y. DistanceMeasurer & 


该 类 计算 文档 与 复 (用 向 量 表 示 ) 之 间 的 欧 氏 距离 。 经 
过 排序 之 后 ， 单 词 数组 中 的 单词 将 以 与 质心 数组 同样 的 
顺序 存放 ， 但 是 会 缺少 其 中 一 些 单 词 。 对 于 缺少 的 这 些 


单词 ， 假 设 其 TF-IDF 值 为 0， 这 样 其 距离 就 是 质心 数组 
FP 对 应 值 的 平方 。 


II 


public class DistanceMeasurer { 


public static double euclideanDistance(Word[] 
words, double[] 
centroid) 


double distance = 0; 


int wordIndex = 0; 
for (int i = 0; i < centroid.length; i++) { 
if ((wordIndex < words.length) 
(words[wordIndex].getIndex() 
== i)) { 
distance += Math.pow( 
(words[wordIndex].getTfidf() - 
centroid[i]), 2); 
wordIndex++; 
} else { 
distance += centroid[i] * centroid[i]; 
} 
} 


return Math.sqrt(distance); 


+ 
} 


. DocumentCluster 类 


该 类 存放 算法 生成 的 每 个 艇 的 相关 信息 。 这 些 信息 
与 该 艇 相关 联 的 所 有 文档 构成 的 列表 ， 以 及 代表 入 
量 的 质心 。 在 本 例 中 ， 该 向 量 的 维度 数目 与 词汇 表 
词 的 数目 相同 。 该 类 含有 两 个 属性 ， 一 个 对 这 两 个 
进行 初始 化 的 构造 画 数 ， 以 及 获取 和 设置 这 两 个 属 | 
的 方法 。 该 类 还 有 两 个 非常 重要 的 方法 ， 第 一 个 是 
calculateCentroid() 方法 ， 该 方法 计算 艇 的 质心 
作为 向 量 的 平均 值 ， 而 这 些 向 量 代表 所 有 与 该 艇 相关 的 
文档 。 代 码 如 下 : 
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public void calculateCentroid( ) { 
Arrays.fill(centroid, 0); 


for (Document document : documents) { 
Word vector[] = document .getData(); 


for (Word word : vector) { 
centroid[word.getIndex()] += word.getTfidf(); 
} 
} 


for (int i = 0; i < centroid.length; i++) { 
centroid[i] /= documents.size(); 


第 二 个 方法 是 initialize( ) 方法 ， 该 方 


Random X) 


} 象 作为 参数 ，} 
量 的 质心 。 如 下 所 示 : 


法 接收 一 个 


且 采 用 随机 数 来 初始 化 簇 向 


for (int i = 0; 


public void initialize(Random random) { 
i < centroid.length; 
centroid[i] = random.nextDouble(); 


i++) £ 


722 串 行 版本 


既然 已 经 讲述 了 应 用 程序 的 公共 特性 ， FA EAS 
Bik-means 7 PE TAH ER ATRAS © 我 们 将 用 到 两 个 
于 实现 算法 的 SerialKMeans 类 ， 以 及 实 main) 
方法 来 执行 算法 的 SerialMain 类。 
a. SerialKMeans 类 
Seria1KMeans 类 实现 了 k-means 聚 类 和 货 
版 本 。 该 类 的 主要 方法 是 calculate( ) 方法 ， 
接收 如 下 参数 。 
. Document 对 象 数组 ， 它 存放 了 有 关 文 档 的 信 
ey + 
。 词汇 表 的 大 小 。 
。 用 于 随机 数 生 成 器 的 “种 子 ”。 
该 方法 返回 一 个 DocumentCluster 对 象 数组 。 
每 个 入 都 有 一 个 与 其 相关 的 文档 列表 。 首 先 ， 文 档 
可 以 创建 一 个 由 clusterCount 参数 确定 的 艇 的 
数组 ， 并 且 使 用 initialize() 方法 和 Random 
对 象 对 其 初始 化 ， 如 下 所 示 : 


public class SerialKMeans { 


public static DocumentCluster[] 
calculate(Document[] documents, 
int clusterCount, int 
vocSize, int seed) { 

DocumentCluster[] clusters = new 
DocumentCluster[clusterCount]; 


Random random = new Random(seed); 
for (int i = 0; i < clusterCount; i++) { 


clusters[i] = new DocumentCluster(vocSize); 
clusters[i].initialize(random); 


} 
然后 ， 重 复 指 派 和 更 新 阶段 ， 直 到 所 有 文档 对 应 的 
敌 都 不 再 变化 为 止 。 最 后 ， 返 回 描述 了 文档 最 终 组 


LI = 


织 情况 的 复数 组 ， 如 下 述 代码 所 示 : 


boolean change = true; 


int numSteps = 0; 
while (change) { 


update(clusters); 
numSteps++; 


System.out.println("Number of steps: 
"+numSteps); 

return clusters; 
} 


change = assignment(clusters, documents); 


指派 阶段 的 工作 在 assignment () 方法 中 实现 。 


该 方法 接收 Document 对 象 数组 和 
DocumentCluster 対象 数 2 


o] 38 


作为 参数 。 对 于 每 
个 文档 ， 该 方法 都 计算 其 与 所 有 艇 之 间 的 欧 氏 有 
， 并 且 将 该 文档 指派 到 距离 最 短 的 饶 。 该 方法 


回 一 个 布尔 值 ， 该 值 表明 从 当前 位 置 到 下 一 位 置 


个 或 多 个 文档 改变 了 为 其 指派 的 徐 。 如 
an 


y 


Si 


private static boolean 

assignment (DocumentCluster[] clusters, 
Document [] 

documents) { 


boolean change = false; 


for (DocumentCluster cluster : clusters) { 
cluster.clearClusters(); 


} 


int numChanges = 0; 
for (Document document : documents) { 
double distance = Double.MAX VALUE; 
DocumentCluster selectedCluster = null; 
for (DocumentCluster cluster : clusters) 
double curDistance = 
DistanceMeasurer.euclideanDistance 
(document .getData( ) , 
cluster.getCentroid()); 
if (curDistance < distance) { 
distance = curDistance; 
selectedCluster = cluster; 


} 


selectedCluster.addDocument (document); 
boolean result = 
document.setCluster(selectedCluster); 
if (result) 
numChanges++; 
} 


System.out.printin("Number of Changes: 
numChanges) ; 
return numChanges > 0; 


} 


{ 


+ 


EN 


更 新 阶段 在 update( ) 方法 中 实现 。 该 方法 接收 带 


有 艇 信息 的 DocumentCluster 对 象 数组 作为 参 
数 ， 并 且 直 接 重 新 计算 每 个 簇 的 质心 。 


private static void update(DocumentCluster[] 
clusters) { 
for (DocumentCluster cluster : clusters) { 
cluster.calculateCentroid(); 
} 
} 
} 


B. SerialMain & 


SerialMain 类 中 含有 main( ) 方法 ， 可 以 启动 对 
k-means 算法 的 测试 。 首 先 ， 它 从 文件 加 载 数 据 
(单词 和 文档 ) 。 


public class SerialMain { 


public static void main(String[] args) { 
Path pathVoc = Paths.get("data", 
"movies.words"); 


Map<String, Integer> 
vocIndex=VocabularyLoader.load(pathVoc); 

System.out.println("Voc Size: 
"+vocIndex.size()); 


Path pathDocs = Paths.get("data", 
"movies.data"); 

Document[] documents = 
DocumentLoader.load(pathDocs, 


vocIndex); 
System.out.printin("Document Size: 
"+documents.length); 


Mi 


然后 ， 它 初始 化 要 生成 的 复数 以 及 随机 数 生成 器 
的 < 种子”。 如 有 果 它 们 mean 方 法 的 参 数 
进行 传递 可 以 使 用 如 下 的 默认 1 


if (args.length != 2) { 
System.err.printin("Please specify K and 
SEED"); 
return; 
} 
int K = Integer.valueOf(args[0]); 
int SEED = Integer.valueOf(args[1]); 


执行 时 间 ， 并 且 输 出 为 每 
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Date start, end; 

start=new Date(); 

DocumentCluster[] clusters = 
SerialKMeans.calculate(documents, 


‚vocIndex.size(), SEED); 
end=new Date(); 
System.out.println("K: "+K+"; SEED: 
"+SEED); 
System.out.println("Execution Time: "+ 
(end.getTime()- 
start.getTime())); 
System.out.println(Arrays.stream(clusters) 
.map 
(DocumentCluster: :getDocumentCount ) 
.sorted 
(Comparator.reverseOrder()) 
.map(Object::toString) 
.collect( Collectors.joining(", ", 
"Cluster sizes: ", ""))); 


} 


723 ”并 发 版 本 


为 实现 该 算法 的 并 发 版 本 ， 我 们 运用 了 Fork/Join 框 架 。 
们 已 经 基于 RecursiveAction 类 实现 了 两 种 任 
o H 


的 任务 时 ， 可 以 使 用 RecursiveAction 任务 。 将 


a! 


如 前 所 述 ， 当 希望 使 用 Fork/Join 框 架 处 理 不 返回 结 


指派 阶段 和 更 新 阶段 的 工作 作为 在 Fork/Join 框 架 中 执行 
的 任务 来 实现 。 

Moo 本 ， 将 修改 一 些 公 共 类 以 
E 


吏 用 并 发 数据 结构 。 然 后 ， 要 实现 两 个 任务 。 最 后 ， 
还 将 实现 ConcurrentKMeans 类 和 
ConcurrentMain 类 。 其 中 ，ConcurrentKMeans 


Yun 


实现 了 算法 的 并 发 版 本 ， 而 ConcurrentMain É 


于 测试 算法 的 并 发 版 本 。 


a. 面向 Fork/Join 框 架 的 两 个 任务 : 


AssignmentTask 和 UpdateTask 


如 前 所 述 ， 将 指派 阶段 和 更 新 阶段 作为 在 Fork/Join 
框架 中 执行 的 任务 实现 。 


RA ENE a CEA LE S 
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和 所 有 艇 之 间 的 欧 氏 距离 。 我 们 将 使 用 一 个 任务 中 
的 文档 数 作为 指标 ， 以 便 决 定 是 否 必须 将 该 任务 分 
割 。 从 要 处 理 所 有 文档 的 任务 开始 分 割 ， 直 到 任务 
要 处 理 的 文档 数 低 于 预定 规模 为 止 。 


AssignmentTask HU FILE 


。 含 有 有 关 簇 数据 的 
ConcurrentDocumentCluster 対象 数 
2 日 o 


+ 


lua: 
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。 含 有 有 关 文 档 数据 的 ConcurrentDocument 
对 象 数组 

。 两 个 整 型 属性 start 和 end ， 它 们 决定 了 任 
务 要 处 理 的 文档 数 。 


e AtomicInteger 属性 numChanges ， 它 存 


放 的 是 从 上 一 轮 执 行 到 当前 执行 的 过 程 中 改变 


了 为 其 指派 的 艇 的 文档 数 。 


。 整 型 属 性 maxSize ， 它 存放 的 是 一 个 任务 所 


能 处 理 的 最 大 文档 数 。 


我 们 实现 了 一 个 构造 画 数 来 初始 化 所 
性 值 的 方法 。 


这 些 任务 (对 每 个 任务 都 是 如 此 ) 的 主 方法 是 


ial 


性 


3 于 获取 和 设置 这 些 


un 
出 


compute() 方法 。 首 先 ， 检 查 任务 必须 处 理 的 文 


档 数 。 如 果 该 值 小 于 或 等 于 maxSize 属性 上 


{ 
N 
J > 


MAREAS > HABITO AT BZ 


| 
欧 氏 距离 ， 并 且 为 文档 选择 距离 最 短 的 簇 。 如 果 必 
要 , 可以 使用 incrementAndGet( ) 方法 增加 


ES) 


numChanges 原子 变量 的 值 。 量 可 以 


同 


时 由 多 个 线程 更 新 且 无 须 同步 机 制 ，1 “会 导致 


任何 内 存 不 一 Sn 相关 代码 如 下 ， 


protected void compute() { 
if (end - start <= maxSize) { 
for (int i = start; i < end; i++) { 
ConcurrentDocument document = 
documents[i]; 
double distance = Double.MAX_VALUE; 


= null; 


clusters) { 
double curDistance = 
DistanceMeasurer.euclideanDistance 
(document .getData(), 
cluster.getCentroid()); 
if (curDistance < distance) { 
distance = curDistance; 
selectedCluster = cluster; 


} 

selectedCluster.addDocument (document); 

boolean result = 

document..setCluster(selectedCluster); 

if (result) { 
numChanges.incrementAndGet(); 


ConcurrentDocumentCluster selectedCluster 


for (ConcurrentDocumentCluster cluster : 


如 果 该 任务 要 处 理 的 文档 数量 太 多 ， 那 么 将 该 集合 
分 割 成 两 个 部 分 ， 且 创 建 两 个 新 的 任务 来 分 别处 
理 这 两 个 部 分 ， 如 下 所 示 : 


} else { 
int mid = (start + end) / 2; 
AssignmentTask task1 = new 
AssignmentTask(clusters, documents, 
start, mid, 


numChanges, maxSize); 
AssignmentTask task2 = new 
AssignmentTask(clusters, documents, 
mid, end, 
numChanges, maxSize); 


invokeA11(task1, task2); 


为 了 在 Fork/Join 池 中 执行 上 述 任 务 ， 使 用 了 
invokeA11( ) 方法 。 该 方法 在 任务 结束 其 执行 后 
返回 。 


i gl alo EL 心 作为 该 艇 中 所 有 文 
当 的 平均 值 。 如 此 便 必须 处 理 所 有 人 入。 我 们 将 使 用 
一 个 任务 要 处 理 的 艇 数 作为 指标 来 控制 是 否 要 对 任 


务 进行 分 割 。 从 一 个 需要 处 理 所 有 艇 的 任务 开始 ， 
E DITOR, ERNE BSR ie CTE 


UpdateTask 类 有 如 下 属性 。 


。 含 有 有 关 簇 数据 的 
ConcurrentDocumentCluster 対象 数 
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2H o 
* 个 整 型 属性 start 和 end ， 它 们 确定 了 任 
务 要 处 理 的 复数 。 
。 整 型 属性 maxSize ， 存 储 了 一 个 任务 可 处 理 


的 最 大 复数 。 
我 们 实现 了 一 个 初始 化 上 述 属性 和 构造 BL, AM 
3 于 获取 和 设置 这 些 属 性 值 的 方法 


compute() 方法 首先 检查 任务 要 处 理 的 复数 。 如 
果 该 数值 小 于 或 者 等 于 maxSize 属性 的 值 ， 则 该 
方法 将 处 理 这 些 复 并 且 更 新 其 质心 。 


@Override 
protected void compute() { 
if (end - start <= maxSize) { 
for (int i = start; i < end; i++) { 
ConcurrentDocumentCluster cluster = 
clusters[i]; 
cluster.calculateCentroid(); 


} 


如 果 任 务 要 处 理 的 艇 数量 太 大 ， 那 么 将 任务 要 处 理 
的 驴 集 合 划 分 成 两 个 部 分 ， 创建 两 个 任务 来 分 
别处 理 每 一 半 和 集合， 如 下 所 示 : 

} else { 


int mid = (start + end) / 2 
UpdateTask task1 = new Uta Conall es: 


start, mid, 
maxSize); 
UpdateTask task2 = new UpdateTask(clusters, 
mid, end, 
maxSize); 
1nvokeA11(task1, task2); 


ß. ConcurrentKMeans 类 


ConcurrentKMeans 类 实现 了 k-means 聚 类 算法 
的 并 发 版 本 。 和 串 行 版 本 一 样 ， 该 类 的 主 方法 是 
calculate() 方法 。 该 方法 接收 如 下 参数 。 


。 存放 ASR. 息 的 ConcurrentDocument 


想 de AA ? 
词汇 表 的 大 小 。 

于 随机 数 生 成 器 的 “种 子 ”。 

在 不 将 Fork/Join 任 务 分 割 成 其 他 任务 的 前 提 
下 ， 该 任务 所 要 处 理 的 最 大 项 数 。 


calculate() 方法 返回 一 个 存放 艇 信息 的 
ConcurrentDocumentCluster 对 no o $ 
BRA S ZH RAI > E, BPI 
EHnumberClusters 参 数 指定 数 的 能 数组， 
并 且 使 用 initialize() 方法 和 一 个 Random 对 
象 来 初始 化 这 些 复 o 


= 


public class ConcurrentkMeans { 


public static ConcurrentDocumentCluster[] 
calculate 
(ConcurrentDocument[ ] 
documents int numberCluster 
int vocSize, int seed, int 
maxSize) { 
ConcurrentDocumentCluster[] clusters = new 


ConcurrentDocumentCluster[numberClusters]; 


Random random = new Randon(seed); 
for (int i = 0; i < numberClusters; i++) { 
clusters[i] = new 
ConcurrentDocumentCluster (vocSize); 
clusters[i].initialize(random); 


然后 ， 重 复 指派 阶段 和 更 新 阶段 ， 直 到 所 有 文档 所 
时 的 簇 都 不 再 改变 为 止 。 在 进入 循环 之 前 ， 创 建 
ForkJoinPoo1 对 象 来 执行 该 任务 及 其 所 有 子 任 
务 。 一 旦 循环 完成 ， 与 其 他 Executor 对 象 一 样 ， 
必须 对 Fork/Join 池 使 用 shutdown( ) 方法 以 结束 其 


执行 。 最 最 后 ， 返 回 含 有 文档 最 终 组 织 结果 的 复数 
组 。 


boolean change = true; 
ForkJoinPool pool = new ForkJoinPool(); 


int numSteps = 0; 
while (change) { 
change = assignment(clusters, documents, 
maxSize, pool); 


update(clusters, maxSize, pool); 
numSteps++; 


} 
pool.shutdown(); 


System.out.printin("Number of steps: 
"+numSteps); 

return clusters; 
} 


指派 阶段 在 assignment( ) 方 法 中 3 
FERE ` VNE maxSize 
A BS, MRAMA IRENA 


— m 
o 


private static boolean 
assignment (ConcurrentDocumentCluster[] 


clusters, 
ConcurrentDocument [] documents, 


int maxSize, 
ForkJoinPool pool) て 


boolean change = false; 
for (ConcurrentDocumentCluster cluster : 


clusters) { 
cluster.clearDocuments(); 
} 


然后 ， 初 始 化 必要 的 对 象 : 用 于 存放 已 指派 复发 生 
变化 的 文档 数 的 AtomicInteger 对 象 ， 以 及 用 于 
启动 处 理 过 程 的 AssignmentTask 対象 ° 
AtomicInteger 类 文 持 原子 操作 。 也 就 是 说 ， 
出 线程 无 法 通过 中 间 状 态 查 看 该 操作 。 对 于 剩余 线 
旦 来 说 ， 该 操作 可 执行 也 可 不 执行 。 这 两 个 对 象 还 
在 set( ) 操作 和 随后 的 get ( ) 操作 之 间 建 立 了 
happens-before 关 系 。 使 用 AtomicInteger 对 象 
确保 所 有 线程 都 可 以 以 线程 安全 的 方式 更 新 其 值 。 


AtomicInteger numChanges = new 
AtomicInteger(0); 

AssignmentTask task = new 
AssignmentTask(clusters, documents, 0, 


documents.length, 
numChanges, maxSize); 


ForkJoinPool pool = new ForkJoinPool(); 


然 后 , 使用 ForkJoinPoo1 的 execute( ) 方法 以 
异步 方式 执行 池 中 的 任务 ， 并 且 使 用 
AssignmentTask 对 象 的 join( ) 方法 等 待 其 结 
R, 如 下 所 示 : 


pool.execute(task); 
task. join(); 


最 后 ， 检 查 已 改变 指派 艇 的 文档 数 。 如 果 存 在 发 生 
改变 的 文档 ， 将 返回 true 值 ， 否 则 返回 false 
值 。 该 代码 如 下 所 示 : 


System.out.printin("Number of Changes: " + 


numChanges); 
return numChanges.get() > 0; 


更 新 阶段 在 update( ) AAPM > ATTE 
数组 和 maxSize 作为 参数 。 首 先 ， 创 建 一 个 

UpdateTask IZARRA Ate > Wa, BUT 
ForkJoinPool 対象 (该 方法 作为 参数 接收 ) 
的 任务 ， 如 下 所 示 : 


private static void 
update(ConcurrentDocumentCluster[] clusters, 
int maxSize, 
ForkJoinPool pool) { 
UpdateTask task = new UpdateTask(clusters, 
0, clusters.length, 
maxSize, 
ForkJoinPool pool); 
pool.execute(task); 
task. join(); 


ConcurrentMain & 


= 


ConcurrentMain 类 中 含有 main( ) 方法 ， 可 启 
动 对 k-means 算法 的 测试 。 它 的 代码 与 
SerialMain 类 相当 ， 只 是 将 串 行 类 改写 为 了 并 
发 类 。 


7.24 对 比 解决 方案 


为 了 对 比 两 种 解决 方案 ， 我 们 更 改 三 个 参数 的 取 值 
多 次 执行 试验 。 


。 参数 K 确定 了 要 生成 的 复数 。 将 其 值 分 别 设置 

为 5、10、15 和 20 来 测试 算法 。 
© 随机 数 生成 器 的 “种 子 ”。 该 种子” 确定 了 初始 
质心 的 位 置 。 将 其 设置 为 1 和 13 来 测试 算法 。 
。 对 于 并 发 算法 来 说 ，maxSize 参数 确定 了 
个 任务 在 不 分 割 的 前 提 下 所 能 处 理 的 最 大 项 
CIA) 数 。 将 其 设置 为 1、20 和 400 来 


采用 JMH 框 架 执 行 这 些 示 例 ， 可 以 在 Java 中 实现 微 
型 基准 测试 。 使 用 面向 基准 测试 的 框架 是 比较 好 的 
解决 方案 ， 它 直接 用 currentTimeMillis() 方 
法 或 者 nanoTime( ) 方法 度量 时 间 。 在 两 种 不 同 
的 架构 上 分 别 执行 这 些 示 例 10 次 。 


。 一 台 计 算 机 配置 了 Intel Core i5-5300 处 理 器 、 
Windows 7 操作 系统 和 16GB 的 RAM 。 该 处 理 
器 有 两 个 核 ， 且 每 个 核 可 以 执行 两 个 线程 ， 这 

样 束 有 四 个 并 行 线程 。 

。 另 一 人 台 计 算 机 配置 了 AMD A8-640 人 处理 器 、 
Windows 10 操 作 系统 和 8GB 的 RAM。 该 处理 
器 有 四 个 核 。 


面 是 得 到 的 执行 时 间 (単位 . EM) 。 首 先 ， 给 
出 在 AMD 架 构 上 得 到 的 结 


SE: 


AMD 架 构 
ATAR 并 发 版 
K 种 maxSize maxSize maxSize 
子 =1 =20 =400 

5 [1 8647.129 | 4919.924 |3795.23 3754.424 
10 1 1 9419.145 |3665.896 |3474.182 3456.362 

16 
15 324.931 6320.174 |5477.755 5543.474 
20 | 1 25 8360.485 | 9280.459 8362.34 

707.589 À ` 5 

5 |13 |5122.681 |2754.947 | 2262.426 2254.837 

a 12 
10/13 629.098 4919.314 | 4593.705 4579.875 
15/13 16 261.68 | 6838.753 | 5606.074 5474.2 

P 23 
20/13 626.983 7605.616 |8114.582 6694.77 


下 面 是 在 Intel 架 构 上 得 到 的 结果 。 
Intel 架 构 
串 行 版 并 发 版 
种 maxSize maxSize maxSize 
K F =1 =20 =400 


jo [FT 4049.579 | 5112.728 |4111.275 4141.222 
10/1 4290.91 4617.793 | 3966.848 3957.214 
15/1 7155.934 |4211.487 |6358.552 6493.285 
20|1 11 10 405.531 | 5949.083 10 009.849 


LI] 444.903 
5 [13 |2437.533 |2893.485 |2444.874 2489.087 
10/13 |5702.272 |5637.996 |5165.333 5206.648 
15/13 |7110.732 |4115.091 |6348.288 6445.648 


10 
20/13 495.405 9509.217 | 5995.638 5371.75 


。“ 种 子 ” 对 于 执行 时 间 有 着 重要 且 不 可 预测 的 影 
响 。 有 时 使 用 “种 子 ”13 的 执行 时 间 会 低 一 些 ， 

但 有 了 时 使 用 “种 子 ”1 的 执行 时 间 会 低 一 些 。 

。 增加 簇 的 数目 时 ， 执 行 时 间 也 会 增加 。 

。 maxSize 参数 对 于 执行 时 间 的 影响 不 大 。 参 

数 K 或 者 “种 子 ” 对 于 执行 时 间 的 影响 较 大 。 如 
果 增 大 了 maxSize 参数 的 值 ， 将 会 获得 更 好 
的 性 能 。 1 和 20 之 间 的 差别 比 20 和 400 之 AN 


。 在 所 有 情况 下 ， 算 法 的 并 发 版 本 的 性 能 都 比 串 
行 版 本 更 好 。 只 有 在 Intel 架 构 上 ， 当 簇 的 数 
较 少 时 ， 串 行 版 的 结果 才 会 比 并 发 版 更 好 。 


例如 ， 如 果 用 加 速 比 来 比较 参数 为 K =20 且 seed=13 
的 串 行 算法 和 参数 为 K =20、seed=13 且 maxSize 
行 算法 的 执行 速度 ， 就 会 得 到 下 面 的 结 


Snip = Tseria _ 23 ne 599 
Teoncurrent 6694.77 

Sintel = Ferial 一 10 495.405 = 1.95 
Teoncurrent 5371.75 


73 第 二 个 例子 : 数据 筛选 算法 


假设 有 大 量 描述 某 个 项 列表 的 数据 。 例 如 ,假设 有 
关于 很 多 人 的 很 多 属性 (姓名 、 姓 氏 、 地 址 、 电 话 
号 码 等 ) s 通常 需要 获得 满足 特定 标 准 的 数据 。 例 
如 ， 想 要 获得 在 某 一 街道 居住 的 人 或 者 叫 某 个 特定 
名 字 的 人 o 


AT, MELE MAA o BIA TAR 
E UCIA Census-Income KDD 数 据 集 ， 该 数据 集 包 
含 了 1994 年 到 1995 年 从 美国 人 口 普 查 局 的 人 口 普查 
结果 中 抽取 的 加 权 人 口 普 查 数据 。 


在 本 例 的 并 发 版 本 中 ， 你 将 学 会 如 何 撤销 在 
Fork/Join 池 运行 的 任务 ， 以 及 如 何 管理 在 任务 中 
抛 出 的 未 校 验 异常 。 


7.3.1 公共 特性 
我 们 实现 了 一 些 类 来 读 取 文件 数据 并 且 进 行 筛选 。 


这 些 类 在 算法 的 串 行 版 本 和 并 发 版 本 中 都 会 用 到 ， 
具体 如 下 。 


CensusData 类 : 
NA 的 属性 o 该 类 定义 了 这 些 


[En 


该 类 存储 了 39 个 用 于 定义 


每 个 属性 。 该 类 和 
包含 了 属性 名 称 


设置 这 些 属性 


CensusDat 


aLoader > 
BAD BAAS 


E, AEREA 


数组 。 


FilterData 


o 


人 
Filter 类 : 该 
CensusData 对 象 是 否 满 


四 性 以 及 获取 和 
将 通过 编号 标识 
ilter() 方法 
辣 的 关系 。 
该 类 从 一 个 文件 中 
1oad( ) 方 

A SM, RE 


Ea 


该 类 定义 了 一 个 数据 筛选 
[该 属性 的 


sal 


E 
A JB 


方法 来 判定 一 个 


筛选 器 规定 标准 也 
SerialMain sy E 


所 送 定 的 条件 o 
不 再 介绍 这 些 类 的 源 代码 ， 它 们 都 非常 简单 ， 
以 查看 本 例 源 代 码 的 详情 。 
7.3.2 EK 
我 们 在 两 个 类 中 实现 了 筛选 J 串 行 版 本 。 
SerialSearch 类 进行 数据 的 筛选 ， 该 类 提供 了 
两 个 方法 。 

e findAny() 方法 : ed: 
对 象 数 组 作为 参数 ， 自 文 件 的 数据 和 
EEE, TERA 
CensusData Ria 个 满足 入 
选 器 规定 标准 以 
findA11( ) 方法 ， 谱 收 CensusData 
对 象 数 组 作为 来 自 文件 的 数据 和 
Nina I ar 
CensusData {Ra + 中 含有 所 有 满足 


en 方 


} BATAN 些 情况 下 
的 执行 时 间 < 
a. SerialSearch 类 
如 前 所 述 ， 该 类 实现 了 数据 全 °。 它 提供 
了 两 个 方法 ， 第 一 个 是 o E 用 
la ada + 的 第 一 个 数据 对 象 。 该 

方法 找到 第 一 {执行 完成 。 相 
关 代码 如 下 : 


public class SerialSearch { 


public static CensusData findAny 
(CensusData[] data, 


filters) { 


int index=0; 
for (CensusData censusData 
if (Filter.filter(censusData, 


List<FilterData> 


: data) £ 


filters)) { 


System.out.println("Found: 
"+index); 


return censusData; 


} 


index++; 


} 


return null; 


} 


第 二 全 是 findA11( ) 方法 ， 该 方法 返回 一 个 
CensusData 对 象 数组 ， 其 中 含有 满足 筛选 
标准 的 所 有 对 象 ， 具 体 如 下 : 


public static List<CensusData> findAll 
(CensusData[] data, 


List<FilterData> filters) { 
List<CensusData> results=new 
ArrayList<CensusData>(); 


for (CensusData censusData : data) { 
if (Filter.filter(censusData, 
filters)) { 
results.add(censusData); 
} 


return results; 


} 
} 


B. SerialMain 类 


你 将 在 不 同情 况 下 使 用 该 类 测试 筛选 算法 。 


先 ， 从 文件 加 载 数据 ， 如 下 所 示 ; 


public class SerialMain { 
public static void main(String[] args) { 
Path path = Paths.get("data", "census- 
income.data"); 


CensusData 
data[]=CensusDataLoader.load(path); 

System.out.printin("Number of items: 
"+data. length); 


Date start, end; 


\ 


我 们 要 做 的 第 一 件 事 是 使 用 findAny( ) 方法 
查找 出 现在 数组 中 第 一 个 位 置 的 对 象 。 可 以 构 
一 个 筛选 器 列表 ， 然 后 调用 findAny (O) 方 
， 该 方法 的 参数 为 文件 中 的 数据 和 筛选 器 列 


es 
Tet DE Fa 


List<FilterData> filters=new ArrayList<>(); 
FilterData filter=new FilterData(); 
filter.setIdField(32); 
filter.setValue("Dominican-Republic"); 
filters.add(filter); 

filter=new FilterData(); 
filter.setIdField(31); 
filter.setValue("Dominican-Republic"); 
filters.add(filter); 

filter=new FilterData(); 
filter.setIdField(1); 
filter.setValue("Not in universe"); 
filters.add(filter); 

filter=new FilterData(); 
filter.setIdField(14); 
filter.setValue("Not in universe"); 
filters.add(filter); 

start=new Date(); 

CensusData 
result=SerialSearch.findAny(data, filters); 
System.out.printin("Test 1 - Result: 
"+result 


.getReasonForUnemployment ()); 
end=new Date(); 
System.out.printin("Test 1- Execution Time: 
"+(end.getTime()- 
start.getTime())); 


筛选 器 根据 下 述 属性 进行 查找 。 


1 
・ 32: 这 是 生父 的 国籍 属性 。 
。 31: 这 是 生母 的 国籍 属性 。 
“1: 这 是 工作 类 别 属性 ， 其 个 可 能 值 
是 Not in universe。 
e 14: 这 是 失业 原因 Bt, É 个 可 能 
值 是 Not in universe < 
我 们 将 按照 如 下 方式 测试 其 他 用 例 。 


ba if indany ( ) 方法 查找 出 现在 数组 
最 后 一 个 位 置 的 对 象 。 
更 用 findAny( ) 方法 尝试 查找 某 个 并 不 
存在 的 対象 
E 
表 


= 


上 错误 情境 中 使 用 findAny( ) 方法 。 
JfindAll() 方法 获取 满足 筛选 器 列 

条 件 的 所 有 对 象 。 

和 于 错误 情境 中 使 用 findA1l1l( ) 方法 。 


7.3.3 ”并 发 版 本 
我 们 将 在 并 发 版 本 中 引入 更 多 要 素 。 


. 任务 管理 器 : 更 用 Fork/Joipn 框 架 时 ， 从 一 个 他 
务 开 始 ， 并 且 将 该 任务 分 割 成 两 个 或 者 

任务 ， 之 后 再 一 次 次 分 割 ， 到 问 题 达到 你 想 

要 的 规模 为 止 。 有些 情况 下 ， 需 要 结束 所 有 任 

务 。 例 如 ， 实 现 findAny( ) 方法 并 且 找 到 了 


m 


一 个 满足 所 有 条 件 的 对 象 时 ， 就 不 需要 继续 执 
行 剩 下 的 任务 了 。 

用 于 实现 findAny( ) 方法 的 
RecursiveTask 类 : 该 类 是 扩展 了 
RecursiveTask 美的 Individua1Task 
用 于 实现 findA11( ) 方法 的 
RecursiveTask 类 : 该 类 是 扩展 了 
RecursiveTask 类 的 ListTask 类 。 


ト 四 


ANS 


VÊ 


了 解 一 下 这 些 类 o 


a. 


TaskManager & 


我 们 将 使 用 该 类 来 控制 任务 的 撤销 。 我 们 将 在 
下 述 两 种 情况 中 撤销 任务 的 执行 。 


。 正 在 执行 findAny( ) 操作 并 且 找 到 了 满 
足 要求 的 対象 

。 正 在 执行 findAny( ) 或 findA11( ) 操 

作 并 且 在 某 个 任务 中 出 现 了 一 个 未 校 验 异 


o 


该 类 声明 了 两 个 属性 ， 一 个 是 用 于 存放 所 有 待 
撤销 任务 的 concurrentLinkedDeque , 5 
个 是 用 于 保证 上 个 任务 执行 
cancelTasks() 方 法 的 AtomicBoo1ean 2% 
量 ・ 使 用 AtomicBoo1ean 变量 确保 所 任务 
都 能 以 线程 安全 的 方式 访问 它们 的 值 


public class TaskManager { 


private Set<RecursiveTask> tasks; 
private AtomicBoolean cancelled; 


public TaskManager() { 
tasks = ConcurrentHashMap.newKeySet(); 
cancelled = new AtomicBoolean(false); 


RE MT [HcCconcurrentLinkedDeque 添 
加 某 个 任务 的 方法 ， 从 
ConcurrentLinkedDeque 中 删除 某 个 任务 
的 方法 ， 以 及 撤销 存放 在 
ConcurrentLinkedDeque 中 所 有 EB ATT 
法 。 要 撤销 这 些 任 务 ， 我 们 使 用 在 
ForkJoinTask 2 2 cancel () 方 
法 。 该 方法 的 参数 为 true 时 会 强制 中 断 运 行 
的 任务 ， 如 下 所 示 : 


public void addTask(RecursiveTask task) { 
tasks.add(task); 


public void cancelTasks(RecursiveTask 
sourceTask) { 


To 


if (cancelled.compareAndSet (false, true)) 
for (RecursiveTask task : tasks) て 
if (task != sourceTask) { 
if(cancelled.get()) て 
task.cancel(true); 


else { 
tasks.add(task); 


public void deleteTask(RecursiveTask task) 


tasks.remove(task); 


cancelTasks() 方法 接收 一 个 
RecursiveTask 对 象 作 为 参数 。 除 了 调用 该 
方法 的 任务 之 外 ， 我 们 将 撤销 所 有 其 他 任务 。 
我 们 不 想 撤销 已 经 找到 结果 的 任务 。 
compareAndSet(false, true) 方法 将 
AtomicBoolean 变量 设置 为 true ， 而 且 当 
仅 当 该 变量 的 当前 值 为 false 時 オオ 会 返 加 
true 值 。 如 果 AtomicBoolean 变量 已 
一 个 true 值 ， 那 么 该 方法 将 返回 false { 
整个 操作 都 以 原子 方式 执行 ， 因 此 即使 
cancelTasks() 方法 被 不 同 线程 同时 调用 多 
次 ， 也 能 够 保证 if 语句 的 主体 部 分 最 多 执行 
一 次 o 


o 


Tndividua1Task 类 


Tndividua1Task 类 扩展 了 
RecursiveTask 类 ， 以 CensusData 任务 
为 参数 ， 并 且 实 现 了 findAny() 操作 。 该 类 
定义 了 如 下 属性 。 


。 一 个 含有 所 有 CensusData 対象 的 数 

组 。 
。Start 属性 和 end 属性 ， 它 们 确定 了 要 

处 理 的 元 素 。 
。 size 属性 ， 它 确定 了 在 无 须 分 割 任务 的 
前 提 下 折 处 理 的 最 大 元 素数 o 
e TaskManager 类 ， 它 用 于 在 必要 之 时 撤 
销 任务 。 


下 面 的 代码 给 出 了 一 个 将 要 应 用 的 筛选 器 列 


o 


4 


sa 


private CensusData[] data; 
private int start, end, size; 
private TaskManager manager; 
private List<FilterData> filters; 


public IndividualTask(CensusData[] data, 
int start, 
int end, TaskManager 
manager, 
int size, 
List<FilterData> filters) { 
this.data = data; 
this.start = start; 
this.end = end; 
this.manager = manager; 
this.size = size; 
this. filters = filters; 


} 

该 类 中 的 主 方法 是 compute( ) 方法 。 该 方法 
返回 一 个 CensusData 对 象 。 如 果 任 务 需 
处 理 的 元 素数 比 size 属性 值 小 ， 该 方法 直接 
进行 对 象 查 找 。 如 果 该 方法 找到 了 想 要 的 对 
象 ， 那 么 它 将 返回 该 对 象 并 且 使 用 

C 


ancelTasks() 方法 撤销 剩余 任务 的 执行 。 
如 果 该 方法 没有 找到 想 要 的 
可 hull 值 ， 如 下 所 示 : 


对 象 ， 那 么 它 将 返 


if (end - start <= size) { 
for (int i = start; i < end && ! 
Thread.currentThread() 
.isInterrupted(); i++) { 
CensusData censusData = datali]; 
if (Filter.filter(censusData, filters)) 


System.out.println("Found: " + i); 
manager.cancelTasks(this); 
return censusData; 


} 


return null; 


} 


如 果 要 处 理 的 项 数 要 比 size 属性 規定 的 多 , 
0 中 的 一 半 
TUR ° 


} else { 
int mid = (start + end) / 2; 
IndividualTask task1 = new 
IndividualTask(data, start, mid, manager, 


size, filters); 
IndividualTask task2 = new 
IndividualTask(data, mid, end, manager, 


size, filters); 


然后 ， 向 任务 管理 器 添加 新 创建 的 任务 ， 并 且 
除 实 际 任务 。 如 果 要 撤销 任务 ， 即 指 仅 撤销 
正在 运行 的 任务 。 


manager .addTask(task1); 
manager .addTask(task2); 
manager .deleteTask(this) ; 


fea, 使用 fork( ) 方法 以 异步 方式 将 任务 发 
送 给 ForkJoinPool ， 并 且 使 用 
quietlyJoin() 方法 等 待 其 执行 结束 。 


E 


join() 方 法 和 quiet1yJoin( ) 方法 之 间 的 
区 别 在 于 ，join( ) 启动 之 后 ， 如 果 任 务 撤 
销 ， 将 抛 出 异常 ， 或 者 在 方法 内 部 抛 出 一 个 未 
校 验 异常 ， 面 duiet1yJoin( ) 方法 则 不 抛 出 
任何 异常 。 


task1.fork(); 
task2.fork(); 
task1.quietlyJoin(); 
task2.quietlyJoin(); 


然后 ， 从 TaskManager 类 中 删除 子 任 务 ， 如 
下 所 示 : 


manager.deleteTask( task1 ) / 
manager .deleteTask(task2); 


HE, 使用 oin( ) 方法 获取 任务 的 结果 。 如 
果 一 个 任务 抛 出 一 个 未 校 验 异常 ， 那 么 该 异常 
将 被 传播 而 无 须 特殊 处 理 ， 而 撤销 操作 则 直接 
被 忽略 ， 如 下 所 示 : 


try { 
CensusData res = task1.join(); 
if (res != null) 
return res; 
manager .deleteTask(task1) ; 
} catch (CancellationException ex) { 


try { 
CensusData res = task2.join(); 
if (res != null) 
return res; 
manager. deleteTask(task2); 
} catch (CancellationException ex) て 


return null; 


y. ListTask 类 


ListTask 类 扩展 了 RecursiveTask E, E 
一 个 CensusData 对 象 列表 作为 参数 。 我 

将 使 用 该 任务 来 实现 findA11( ) 操作 。 该 
务 和 IndividualTask 任务 非常 相似 ， 都 


an 
op Pie 


相同 的 属性 ， 但 是 它们 在 compute( ) 方 
法 上 有 所 不 同 。 


先 ， 初 始 化 一 个 List 对 象 以 返回 结果 # = 
校 验 任务 要 处 理 的 元 素数 量 。 如 果 任 

的 元 素数 量 小 于 size 属性 ， 将 满 er 
定 标准 的 所 有 对 象 添 加 到 结果 列表 中 。 


E dá 
ma 


@Override 

protected List<CensusData> compute() { 
List<CensusData> ret = new 

ArrayList<CensusData>(); 
List<CensusData> tmp; 


if (end - start <= size) { 
for (int i = start; i < end; i++) { 
CensusData censusData = datali]; 
if (Filter.filter(censusData, 
filters)) { 
ret .add(censusData ) ; 


如 果 要 处 理 的 项 数 多 于 size 属性 ， 将 创建 两 
个 子 任务 来 处 理 其 中 各 一 半 的 元 素 


o 


int mid = (start + end) / 2; 
ListTask task1 = new ListTask(data, start, 
mid, manager, size, 

filters); 
ListTask task2 = new ListTask(data, mid, 
end, manager, size, filters); 


然后 ， 将 新 创建 的 任务 添加 到 任务 管理 器 并 且 
删除 原来 的 实际 任务 。 该 实际 任务 并 不 会 被 撤 
销 ， 而 其 子 任务 会 被 撤销 ， 如 下 所 示 : 


manager .addTask(task1); 
manager .addTask(task2); 
manager.deleteTask( this ) ; 


RE, 使用 fork( ) 方法 以 异步 方式 将 任务 发 
送 给 ForkJoinPool ， 并 且 使 用 
quietlyJoin() 方法 等 待 其 执行 结束 。 


task1.fork(); 
task2.fork(); 
task2.quietlyJoin(); 
task1.quietlyJoin(); 


然后 ， 从 TaskManager 中 删除 子 任务 。 


manager .deleteTask(task1); 
manager .deleteTask(task2) ; 


现在 ， 使 jjoin( ) 方法 获取 任务 结 采 s 如果 


一 个 任务 抛 出 了 未 校 验 异常 ， 那 么 它 将 被 传播 
而 不 经 特殊 处 理 ， 并 且 会 直接 忽略 撤销 操作 。 


try { 
tmp = task1.join(); 
if (tmp != null) 
ret.addAll(tmp); 
manager.deleteTask(task1); 
} catch (CancellationException ex) { 


} 
try { 
tmp = task2.join(); 
if (tmp != null) 
ret.addAll(tmp); 
manager.deleteTask(task2); 
} catch (CancellationException ex) { 


6. ConcurrentSearch & 


ConcurrentSearch 类 实现 I Y FindAny ( 


A 
人 


) 
和 findA11( ) 方法 。 这 两 个 方法 与 串 行 版 本 
相应 方法 有 着 相同 的 接口 。 从 内 部 来 看 ， 它 


] 初 始 LTaskManager 对 象 和 第 一 个 任务 ， | 
y 


且 使 用 execute 方法 将 其 发 送 给 默认 自 


ForkJoinPoo1 ， 然 后 等 待 任务 结束 并 且 输 
出 结果 。 下 面 是 findAny( ) 方法 的 代码 。 


public class ConcurrentSearch { 


public static CensusData findAny 


(CensusData[] data, 
List<FilterData> 
filters, int size) { 
TaskManager manager=new TaskManager(); 
IndividualTask task=new 
IndividualTask(data, O, data.length, 


manager, size, filters); 
ForkJoinPool.commonPool().execute(task); 
try { 
CensusData result=task.join(); 
if (result!=null) { 
System.out.println("Find Any Result: 
"+result.getCitizenship()); 
return result; 
} catch (Exception e) { 
System.err.println("findAny has 
finished with an error: "+ 


task.getException().getMessage()); 


return null; 


} 


下 面 是 findAl1( ) 方法 的 代码 。 


public static CensusData[] findAll 
(CensusData[] data, 
List<FilterData> filters, int size) { 
List<CensusData> results; 
TaskManager manager=new TaskManager(); 
ListTask task=new 
ListTask(data,0,data.length, manager, 


size, filters); 


ForkJoinPool.commonPool().execute( task) ; 
try { 
results=task.join(); 
return results; 
} catch (Exception e) { 
System.err.Dprint1n( "findAny has 
finished with an 
error: " + 
task.getException().getMessage()); 


return null; 


} 


e. ConcurrentMain & 


ConcurrentMain 类 用 于 测试 目标 筛选 器 的 
发 版 本 。 它 和 SerialMain 类 似 ， 只 是 采 

了 各 种 并 发 版 本 的 操作 。 

7.3.4 ”对 比 两 个 版 本 


为 了 比较 筛选 算法 的 串 行 版 本 和 并 发 版 本 ， 我 
们 分 六 种 情形 进行 测试 。 


N 


。 测试 1 : 测试 findAny( ) 方法 ， 查 找 一 
个 对 象 ， 它 在 CensusData 数组 中 的 第 
个 位 置 。 
。 测试 2 : 测试 findAny( ) 方法 ， 查 找 一 
个 对 象 ， 它 在 CensusData 数组 的 最 后 
个 位 置 。 
。 测 试 3 : 测试 findAny( ) 方法 ， 查 找 一 
个 不 存在 的 对 象 。 

. 测试 4 : 在 错误 情况 下 测试 findAny( ) 


。 测 试 5 ， 在 正常 情况 下 测试 findA1l1l() 


。 测试 6 ， 在 错误 情况 下 测试 findAl1l() 


对 于 算法 的 并 发 版 本 ， 我 们 测试 了 size 参数 
的 3 组 不 同 取 值 ， 该 参数 确定 了 一 个 任务 在 不 
分 割 成 两 个 子 任务 时 所 能 处 理 的 最 大 元 素数 。 
测试 使 用 的 最 大 病 值 为 10、200、2000 和 4000 


采用 JMH 框 架 执行 这 些 示 例 ， 该 框架 允许 在 
Java 中 实现 微型 基准 测试 。 使 用 面向 基准 测试 
的 框架 是 比较 好 的 解决 方案 ， 它 直接 用 
currentTimeMillis() 方法 或 者 
nanoTime() 方法 度量 时 间 。 在 两 种 不 同 的 
架构 上 分 别 执行 这 些 示例 10 次 。 


。 一 台 计 算 机 配置 了 Intel Core i5-5300%h3 
az > Windows 7 操作 系统 和 16GB 的 
RAM。 该 处 理 器 有 两 个 核 ， 且 每 个 核 可 
MM 两 个 线程 ， 这 样 就 有 四 个 并 行 线 

。 男 一 台 计 算 机 配置 了 AMD A8-640 处 理 
器 Windows 10 操 作 系 统 和 8GB 的 
RAM 。 该 处 理 器 有 四 个 核 。 


与 其 他 例子 相同 ， 以 毫秒 为 单位 度量 执行 时 
间 。 首 先 给 出 在 AMD 架 构 上 的 运行 结果 。 


las 


测试 | RAT | 版 本 | 本 | 版 本 | 版 本 | 最 优 
用 例 | 版 本 | 规模 | 规模 | 规模 | 规模 


测试 1 | 2.374 |8.041 |5.434 |4.802 |9.339 版 本 


测试 2 | 86.049 | 75.872 | 57.954 | 32.56 | 32.876 Ei 


测试 3 | 58.322 | 70.562 | 22.947 |30.831 | 27.033 版 本 


15 串 行 
0.65 259.597 | 8.585 | 5.987 
测试 4 版 本 


测试 5 | 60.129 | 42.979 | 44.81 | 22.741 | 21.287 版 本 


14 E 
测试 6 | 0.697 256.271 [9.365 |4.842 | 版 本 


Entel RH Ea TERA Fe 


Intel 架 构 


并 发 版 | 并 发 版 | 并 发 | 并 发 
测试 | 串 行 | 本 本 | 版 本 | 版 本 | 最 优 
用 例 | 版 本 | 规模 | 规模 | 规模 | 规模 


PÍT 
Ita | 0.796 |8.896 [3.253 |2.08 |2.422 
测试 版 本 
测试 2 | 31 006 | 41.312 |32.974 |14.407 | 14.55 并 发 
版 本 
测试 3 | 15.076 | 25.068 | 9.55 10.729 | 9.77 并 发 
AR 
10 347 
| 
测试 4 | 0.378 664.607 | 106.349 | 4.699 | 2.898 | 版 本 
测试 5 | 13.291 | 18.037 | 25.061 |10.262 | 8.937 
10 ERAT 
| 
测试 6 | 0.352 901.387 | 91.998 [5.246 [2.24 版 本 


根据 上 述 表格 ， 可 以 得 出 如 下 结论 。 

”处 理 相对 少量 的 元 素 时 ， 算 法 的 串 行 版 本 
a AAN, Mk 
。 在 错误 情况 下 ， 算 法 的 串 行 版 本 要 比 


发 
版 本 的 性 能 更 好 。 当 size 参数 的 值 较 小 
时 ， 并 发 版 本 在 这 种 情况 下 性 能 非常 业 


在 这 种 情况 下 ， 并 发 处 理 并 不 会 总 能 提升 性 


a 第 三 个 例子 : 归并 排序 算 


归并 排序 和 法 是 中 非常 流行 的 排序 算法 , 通 
常 使 用 分 治 方法 实现 ， 因 此 它 是 一 个 用 于 测试 
Fork/Join 框 架 的 很 好 的 候选 算法 。 


为 实现 归并 排序 算法 ， 我 们 将 未 排序 的 列表 划 


的 唯一 列表 ， 只 不 过 其 中 所 有 的 元 素 都 进行 了 


为 了 编写 该 算法 的 并 发 版 本 ， 我 们 采用 了 Java 
8 中 引 入 的 CountedComp1eter 任务 。 这 类 

任务 最 重要 的 特征 是 ， 它 们 都 含有 一 个 可 在 所 
有 子 任务 执行 完毕 之 后 执行 的 方法 。 


为 了 测试 上 述 实 现 方法 ， 我 们 使 用 了 亚马逊 产 
品 联合 采购 网 络 元 数据 (可 以 在 SNAP 搜 
“Amazon product co-purchasing network 


metadata” FER) 。 我 们 创建 了 一 个 含有 542 


184 个 产品 的 和 


的 各 个 版 本 ， 


省 售 排名 列表 。 


对 该 产品 列表 进行 排序 ， 并 且 
美的 sort( ) 方法 和 


JArrays R 


我 们 将 测试 该 算 


para11e1Sort( ) 方法 来 比较 执行 时 间 。 
741 共享 类 


E 如 前 面 提 到 的 ， 已 经 构建 


昌 似 产品 编码 ， 


了 一 个 含有 542 


马 。 我 们 实现 了 


84sk Amazon) HABA, 包括 每 个 产品 的 
“产品 名 称 、 分 组 、 销 售 排名 


以 及 每 个 产品 所 属 的 类 别 编 


x 浏览 类 量 x 


Comparable 


compare( ) 方法 比较 


AmazonMetaData 类 来 存放 
产品 信息 息 。 该 类 声明 了 必要 的 属性 
设置 这 些 属 性 值 的 方法 。 该 类 实现 了 


«Au 
= 
NE 
E 
>F 
> 
SH 
Ta 


接口 以 对 比 该 类 的 两 个 实例 。 


我 们 想 要 按照 销售 排名 以 升序 排列 这 些 
为 了 实现 compare( ) FE, 使用 


如 下 所 示 : 


| 这 些 元 素 。 
EF Long 类 的 
个 对 象 的 销售 排名 ， 


} 


return Long.compare(this.getSalesrank(), 


public int compareTo(AmazonMetaData other) 


other.getSalesrank()); 


E 


我 
数 


一 


A 


742 ”品行 版 本 


排 
类 


序 算法 的 串 行 版 本 。SerialMergeSort 


我 们 在 SerialMergeSort 类 


实现 了 算法 


本 身 和 SerialMetaData É, 
提供 了 测试 该 算法 的 main 


a. SerialMergeSort 类 


绍 Fork/Join 框 架 的 特性 ， 
些 类 的 源 代码 。 


if) i SEEM FT AmazonMetaDataLoader 
它 提 供 了 load( ) 方法 。 
据 文件 的 路 径 作 为 参数 ， 返 
息 的 AmazonMetaData 对 象 数 组 。 


@ 为 了 集中 介 
比 处 并 没有 给 出 这 


该 方法 接收 含有 
器 含有 所 有 产品 


KE J JAF 


O 方法 。 


SerialMergeSort 类 实现 了 归并 排序 


算法 的 串 行 版 本 。 它 提供 


的 


mergeSort ( ) 方法 可 接收 如 下 参数 o 


含 


所 有 待 排序 数据 的 数组 。 


. 六 方法 要 处 理 的 第 一 ト 元 素 (8 
. 该 方法 要 处 理 的 最 后 一 个 元 素 ( 不 包 


=) 


即 返 回 o En TENTE 3 调用 
mergeSort( ) 方法 。 第 一 次 调用 处 理 前 
一 半 元 素 ， 第 二 次 调用 处 理 后 一 半 元 素 。 
最 后 ， 调 用 merge( ) 方法 合并 两 部 分 元 
素 , 获得 一 个 经 过 排序 的 元 素 列表 。 


public void mergeSort (Comparable 
data[], int start, int end) { 
if (end-start < 2) £ 
return; 


int middle = (end+start)>>>1; 
mergeSort (data, start, middle); 
mergeSort (data, middle, end); 

merge(data, start, middle, end); 


(EH (end+start)>>>1 操作 符 获 取 位 
于 数组 中 间 位 置 的 元 素 ， 进 而 分 割 数 
例如 ， 如 果 有 15 亿 个 元 素 (对 于 当前 
存心 片 来 说 并 非 不 可 能 ) ， 这 一 操作 
于 Java 数 组 。 然 而 ， 采 用 
end+start)/2 的 方 法 哲 溢 出 , ARE 
| 一 个 负数 值 的 数组 。 可 以 阅读 名 
为 “Extra, Extra-Read All About It: Nearly 
All Binary Searches and Mergesorts are 

Broken” 的 文章 获取 有 关 该 问题 的 详细 解 
E o 


erge() 方法 将 两 个 元 素 列 表 合 并 以 得 
| 一 个 排序 的 列表 。 该 方法 可 接收 如 下 参 


o 


T m 


> HO 


EE 


含有 所 有 竺 排序 数据 的 数组 。 
三 个 元 素 : start 、mid Mend, 
它们 将 待 归并 和 排序 的 数组 划分 成 两 


个 部 分 (start-mid 和 mid-end) ° 


门 创建 了 一 个 临时 数组 来 对 元 素 进行 排 
然后 ， 处 理 列 表 的 两 部 分 时 ， 会 在 数 
E 素 进行 排序 ， 并 且 在 原始 数组 相 
的 位 置 上 存放 已 排序 的 列表 。 如 下 壕 代 


PILAS 
EE 
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private void merge(Comparable[] data, 
int start, int middle, 
int end) { 

int length=end-start+1; 

Comparable[] tmp=new 
Comparable[length]; 

int i, j, index; 

i=start; 

j=middle; 

index=0; 

while ((i<middle) && (j<end)) { 

if (data[i].compareTo(data[j]) 

<=0) { 


tmp[index]=data[i]; 
i++; 

} else { 
tmp[index]=data[j]; 
j++; 

} 

index++; 


} 


while (i<middle) { 
tmp[index]=data[i]; 
i++; 
index++; 


} 


while (j<end) { 
tmp[index]=data[j]; 
j++; 
index++; 


} 


for (index=0; index < (end-start); 
index++) { 
data[index+start]=tmp[index]; 
} 
} 
} 


ß. SerialMetaData & 


SerialMetaData 类 提供 了 
法 的 main( ) 方法 。 每 个 排序 算法 将 执行 
10 次 并 且 计 算 平 均 执行 时 间 。 首 先 ， 从 文 
= 加载 数据 并 且 创 建 该 数组 的 一 个 副 


public class SerialMetaData ( 


public static void main(String[] 
args) { 
for (int j=0; j<10; j++) £ 
Path path = 
Paths.get("data", "amazon-meta.csv"); 


AmazonMetaData[] data = 
AmazonMetaDataLoader .load(path) ; 

AmazonMetaData data2[] = 
data.clone(); 


Ra, 使用 Arrays 美的 sort( ) 方法 对 
第 一 个 数组 进行 排序 。 


Date start, end; 


start = new Date(); 
Arrays.sort(data); 
end = new Date(); 
System.out.printin("Execution Time Java 
Arrays.sort(): " + 

(end.getTime() - 


start.getTime())); 


BA, BA 
组 的 排序 。 


排序 算法 实现 对 第 二 个 数 


Xu 


SerialMergeSort mySorter = new 
SerialMergeSort(); 
start = new Date(); 
mySorter.mergeSort(data2, 0, 
data2.length); 
end = new Date(); 
System.out.println("Execution Time Java 
SerialMergeSort: " + 

(end.getTime() - 
start.getTime())); 


最 后 ， 检 查 发 现 排序 后 的 数组 相似 。 


for (int i = 0; i < data.length; 
i++) 
if (data[i].compareTo(data2[i]) 


!= 0) { 
System.err.printin("There's a 
difference is position " + 
f i); 
System.exit(-1); 


System.out.println("Both arrays 


are equal"); 


} 
} 


7.4.3 ”并 发 版 本 


务 


如 前 所 述 ， 我 们 将 使 用 Java 8 中 的 
CountedCompleter 类 作为 面向 Fork/Join 任 
的 基 类 。 该 类 提供 了 某 种 机 制 ， 当 其 所 有 子 
王 务 完 成 执行 后 会 执行 某 个 方法 
是 onComp1etion( ) 方 法 A 

compute( ) 方法 分 割 数组 ， 使 用 
onCompletion() 方 法 属 子 タ 


这 种 机 制 就 
我 们 使 用 


A 成 一 个 


， 
o 
KLEE 
, 


UR 


经 过 排序 的 列表 * 
要 实现 的 并 发 版 解决 方案 有 下 述 三 个 类 。 


e ConcurrentMergeSort 类 ， 该 类 启动 


e MergeSortTask 类 ， 该 类 扩展 了 


CountedCompleter 类 并 且 实 现 了 执行 
归并 排序 算法 的 任务 。 


了 第 一 个 任务 s 


e ConcurrentMetaData 类 ， 该 类 提供 了 
main( ) 方法 来 测试 归并 排序 算法 的 并 发 


版 本 。 


。MergeSortTask 类 


如 前 所 述 ， 该 类 实现 了 将 用 于 执行 归并 排 
序 算 法 的 任务 。 该 类 用 到 了 以 下 属性 。 


o 存放 待 排序 数据 的 数组 。 
o 任务 必须 进行 排序 操作 的 这 部 分 数组 
的 起 始 位 置 和 终止 位 置 。 


一 个 用 于 初始 化 其 参数 的 构造 画 


public class MergeSortTask extends 
CountedCompleter<Void> { 


private Comparable[] data; 
private int start, end; 
private int middle; 


public MergeSortTask(Comparable[] 
data, int start, int end, 
MergeSortTask 
parent) 
super(parent); 


this.data = data; 
this.start = start; 
this.end = end; 


如 果 起 始 索 引 和 终止 索引 之 间 的 差距 大 于 
或 等 于 1024， 那 么 使 用 compute( ) 方 
法 ,将 任务 分 割 成 两 个 了 任务 来 分 别处 理 
原 集合 的 两 个 。 两 个 任务 采用 
fork() 方法 以 异步 方式 将 任务 发 送 给 
ForkJoinPool ° MI, HAT 
SerialMergeSorg. mergeSort( ) 対 
数组 (具有 小 于 或 等 于 1024 个 元 素 ) 进行 
排序 ， 然 后 调用 tryComplete( ) 方法 。 
子 任务 执行 完毕 之 后 ， 该 方法 将 从 内 部 调 
HonCompletion() 方法 。 如 下 述 代码 
所 示 : 


@Override 
public void compute() { 
if (end - start >= 1024) { 
middle = (end+start)>>>1; 
MergeSortTask task1 = new 
MergeSortTask(data, start, middle, 


this); 
MergeSortTask task2 = new 
MergeSortTask(data, middle, end, 


this); 
addToPendingCount (1); 


task1.fork(); 
task2.fork(); 
} else { 
new 
SerialMergeSort().mergeSort(data, 
start, end); 
tryComplete(); 


在 我 们 的 例子 中 采用 onCompletion() 
方法 进行 归并 和 排序 操作 ， 进 而 获得 排序 
后 的 列表 。 一 旦 任务 完成 
onCompletion() 方法 的 执行 后 ， 它 将 
在 其 父 任 务 的 层面 上 调用 
tryComplete() 方法 以 完成 该 任务 的 执 
行 。onCompletion( ) 方法 的 源 代码 与 
该 算法 串 行 版 本 的 merge( ) 方法 非常 相 
似 。 代 码 如 下 所 示 : 


Th 


@Override 
public void 
onCompletion(CountedCompleter<?> 
caller) { 
if (middle==0) { 
return; 


int length = end - start + 1; 
Comparable tmp[] = new 
Comparable[length]; 
int i, j, index; 
i = start; 
j = middle; 
index = 0; 
while ((i < middle) && (j < end)) { 
if (data[i].compareTo(data[j]) <= 
0) { 
tmp[index] = data[i]; 
i++; 
} else { 
tmp[index] = data[j]; 
j++; 


index++; 


} 

while (i < middle) { 
tmp[index] = data[i]; 
i++; 
index++; 


} 

while (j < end) { 
tmp[index] = data[j]; 
j++; 
index++; 


for (index = 0; index < (end - 
start); index++) { 
data[index + start] = tmp[index]; 


} 


ConcurrentMergeSort 类 


CHA, MARE AA o ES] 
ergeSort() 方法 ， 该 方法 接收 含有 待 
E 序 数据 的 数组 ， 以 及 起 始 索 引 (该 
为 0) 和 终止 索引 (该 值 总 是 为 数组 
E) 作为 参数 。 此 处 选择 保持 与 串 行 
同 的 接口 。 


该 方法 创建 一 个 新 的 MergeSortTask , 

更 用 invoke( ) 方法 将 其 发 送 给 默认 的 
ForkJoinPool ， 该 方法 在 该 任务 完成 
执行 且 数 组 已 被 排序 后 返回 。 


rs 


oe 


public class ConcurrentMergeSort { 


public void mergeSort (Comparable 
data[], int start, int end) { 


MergeSortTask task=new 
MergeSortTask(data, start, end,null); 


ForkJoinPool.commonPool().invoke(task); 


} 
} 


ConcurrentMetaData 类 


ConcurrentMetaData 类 提供 了 
main( ) 方法 来 测试 归并 排序 算法 的 并 发 
版 本 。 在 我 们 的 例子 中 ， 该 类 的 代码 和 
SerialMetaData 类 的 代码 相当 ， 只 是 
采用 了 相关 类 的 并 发 版 本 ， 并 且 使 用 
Arrays.parallelSort() 方法 而 
Arrays.sort() 方法 ， 因 此 出 

出 该 类 的 源 代码 。 


7.44 対比 西條 版本 


我 们 执行 归并 排序 算法 的 串 行 版 和 并 行 版 ， 比 
较 这 两 个 版 本 的 执行 时 间 ， 并 且 比较 了 使 用 


Arr 
Arr 


a] o 


ays.sort() 方法 和 
ays.parallelSort() 方法 时 的 执行 时 


中 


JMH 框 架 执行 这 四 个 版 本 ， 该 框架 允许 在 


LS 
Java 


的 框架 是 比较 好 的 解决 方案 ， 因 为 可 以 直接 使 
HcurrentTimeMi11is( ) 或 者 
nanoTime() 度量 时 间 。 在 两 种 不 同 的 架构 
上 分 别 执行 这 些 示例 10 次 。 


实现 微型 基准 测试 。 使 用 面向 基准 测试 


一 台 计 算 机 配置 了 Intel Core i5-53004# 
器 、Windows 7 操作 系统 和 16GB 的 


las 


RAM。 该 处 理 器 有 两 个 核 且 每 个 核 可 以 
执行 两 个 线程， 这 样 就 有 四 个 并 行 线 程 。 

。 另 一 台 计 算 机 配置 了 AMD A8-640 处 理 
às > Windows 10 操 作 系 统 和 8GB 的 
RAM 。 该 处 理 器 有 四 个 核 。 


下 面 给 出 的 是 对 含有 542 184 个 对 象 的 数据 集 
进行 排序 计算 后 得 到 的 执行 时 间 (以 毫秒 为 单 


位 


品行 并 行 版 


Arrays.sort() er Arrays.parallelSort() 归并 排 


AMD 
why [8581 1268.3 |392.6 705.1 
ua 327.608 454.84 | 209.653 209.732 


AYE 得 出 下 述 Hie o 


+ 使用 Arrays .para11e1Sort( ) 方法 可 
以 得 到 最 佳 结果 。 对 于 串 行 算法 来 说 ， 

Arrays.sort() 方法 比 我 们 的 实现 方法 
在 执行 时 间 上 更 优 。 
。 就 我 a MBL, ARIZA DA 


我 们 可 以 用 加 速 比 来 比较 归并 排序 算法 串 行 版 
本 和 并 发 版 本 的 执行 时 间 。 
S Tserial 1268.3 1.80 
SAMB 了 concurrent 705.33 Bi 
cae = Tserial = 454.84 = 1.522 


Teoncurrent 298.732 


7.5 ”Fork/Join 框 架 的 其 他 方法 


在 本 章 的 三 个 例子 中 ， 我 们 用 到 了 构成 
Fork/Join 框 架 的 类 的 很 多 方法 ， 除 此 之 外 ， 你 
还 需要 了 解 一 下 其 他 一 些 有 用 的 方法 


使 用 ForkJoinPool 美的 execute( ) 方法 和 
invoke() 方法 将 任务 发 送 给 池 。 还 可 以 使 用 
另 一 个 名 为 submit( ) 的 方法 o 它们 之 间 的 主 
要 区 别 在 于 : execute() 方法 将 任务 发 送 给 
ForkJoinPool 之 后 立即 返回 一 个 void 值 ; 
invoke() 方法 将 任务 发 送 给 
ForkJoinPool 后 ， 当 任务 完成 执行 后 方 可 
返回 ; 面 submit( ) 方法 将 任务 发 送 给 
ForkJoinPool 之 后 立即 返回 一 个 Future 
对 象 ， 用 以 控制 任务 的 状态 并 且 获 得 其 结果 。 


本 章 所 有 示例 使 用 的 类 均 基 于 
ForkJoinTask 类 ， 不 过 你 也 可 以 使 用 基于 
Runnable 接口 和 Callable 接口 的 
ForkJoinPool 任务 。 为 实现 这 一 目标 ， 可 
头 使 用 Submit( ) 方法 。 该 方法 有 接收 
Runnable 对 象 作 为 参数 的 版 本 、 接 收 含 有 结 
果 的 Runnable 对 象 作 为 参数 的 版 本 和 接收 
Callable 对 象 作 为 参数 的 版 本 。 


ForkJoinTask 美 提供 了 get(1ong 
timeout, TimeUnit unit) INEA 
个 任务 返回 的 结果 。 该 方法 在 参数 中 指定 了 等 
待 任务 结果 的 时 间 周 期 。 如 果 该 任务 在 这 一 时 
间 周 期 结束 之 前 完成 了 执行 ， 则 该 方法 返回 相 
应 结果 。 否 则 ， 该 方法 抛 出 一 个 
TimeoutException 异常 。 


ForkJoinTask 类 为 jnvoke( ) 方法 提供 了 

一 种 替代 方案 ， 即 quiet1lyInvoke( ) 方 

法 。 这 两 种 方法 的 主要 区 别 在 于 ，invoke() 
方法 返 可 任务 执行 的 结果 或 者 在 必要 时 抛 出 异 
#, MquietlyInvoke() 方法 不 返回 任 
的 结果 ， 也 不 抛 出 任何 异常 。 后 者 与 示例 
到 的 quietlyJoin() 方 法相 似 * 


TR EE 


分 治 设计 方法 是 一 种 非常 流行 的 方法 ， 用 
于 解决 各 种 不 同 的 问题 。 你 可 了 ia? 
割 成 较 小 的 问题 ， 再 将 这 些 较 小 的 问题 分 割 成 
更 小 的 问题 ， 直 到 它们 足够 简单 ， 可 以 被 直接 
处 理 为 止 。 在 Java 7 中 ，Java 并 发 API 引 入 了 
种 特殊 的 执行 器 ， 它 是 专门 为 解决 此 类 问题 而 

化 定制 的 。 这 就 是 ForwJoin 框 架 。 它 基于 
Fork 操 作 创 建 一 个 新 的 子 任务 ， 基 于 Join 操 作 
在 获取 结果 前 等 待 子 任务 结束 。 


采用 这 些 操 作 ，Fork/Join 任 务 就 会 呈现 如 下 


N 


if ( problem.size() > DEFAULT SIZE) { 
chi1dTask1=new Task(); 
childTask2=new Task(); 
childTask1.fork(); 
childTask2.fork(); 
childTaskResultsi=childTask1.join(); 
childTaskResults2=childTask2.join(); 


taskResults=makeResults(childTaskResults1, 
childTaskResults2); 

return taskResults; 
} else { 

taskResults=solveBasicProblem(); 

return taskResults; 


本 章 使 用 Fork/Join 框 架 解 决 了 三 个 问题 : k- 
means 聚 类 算法 、 数 据 筛选 算法 和 归并 排序 货 


法 。 


本 章 使 用 了 API 提 供 的 默认 ForkJojinPool , 
且 创 建 了 一 个 新 的 ForkJoinPool 対象 , 
还 用 到 了 下 面 三 种 类 型 的 ForkJoinTasks 。 


。RecursiveAction 类 ， 用 作 那 些 不 返 
回 结果 的 ForkJoinTask 的 基 类 。 
。RecursiveTask 类 ， 用 作 那 些 返回 结果 
任务 的 基 类 。 
. CountedCompleter %, JARE Y At 

子 任务 执行 完毕 后 需要 执行 某 个 方法 或 
者 启动 另 一 任务 的 任务 的 基 类 。 


将 介绍 在 处 理 超 大 规模 数据 集 时 ， 如 何 
MapReduce 编 程 方法 运用 并 行 流 技术 获得 


生性 能 。 


do 


28% 使 用 并 行 流 处 
理 大 规模 数据 集 : 
MapReduce 模 型 


毫 无 疑问 ，Java 8 引入 的 最 重要 的 创新 是 
lambda 表 达 式 和 流 API 。 流 是 可 以 以 顺序 方 
式 或 者 并 行 方 | 个 元 素 序 列 。 可 以 应 


中 间 操 作 转 换 流 ， Me 以 获得 
预期 结果 (列表 、 数组 ` 数值 等 ) RET 
述 下 述 主题 。 

。 流 的 简介 

・ 第 MIF: 数值 综合 分 析 应 用 程序 。 

e 二 个 例 : 信息 检索 工具 ze 


81 流 的 简介 


流 就 是 一 个 数据 序列 (并 不 是 数据 结 
构 ) ， 可 以 以 顺序 方式 或 者 并 发 方式 应 用 某 一 
操作 EF 序列 来 筛选 、 转 换 、 排 序 、 约 简 

(reduce) 或 组 织 这 些 元 素 ， 以 获得 某 一 最 终 
对 象 。 例 如 ， 如 果 有 一 个 含有 员工 数据 的 流 ， 
可 以 使 用 该 流 。 


。 统计 员工 的 总 数 (这 是 一 项 开销 较 大 的 末 
端 操作 ) 
e ìf TERN BEER AT bt PPE Sr 


。 获取 未 达到 目标 的 员工 列表 。 
。 执行 任何 涉及 全 部 或 部 分 员工 的 操作 > 


ALTERA TERES KARTE (Scala 编 程 语 
言 提供 了 一 种 非常 相似 的 机 制 

lambda 表 达 式 一 起 使 用 。 流 API 类 似 于 C# 语 计 
的 LINQ (Language- ee Query 的 缩 
5) 查询 ， 在 某 种 程度 \ 可 与 SQL 查询 相 


な 
比较 。 


接 下 来 将 解释 流 的 基本 特征 ， 以 及 流 的 各 个 组 
成 部 分 。 


8.1.1 流 的 基本 特 征 
流 的 主要 特征 如 下 。 


;并 不 存储 其 元 素 。 流 从 它 的 源 获 取 元 
at 推送 这 些 元 素 通 过 构成 管道 的 所 


以 以 并 行 方 式 处 理 流 而 无 须 做 任何 额外 
作 * BETT, 可以 使用 stream( ) 方 


SÉ 


a 


i 


@ 
I mé 
‘ 


} 


法 创建 一 个 顺序 流 ， 或 者 使 用 
parallelStream() 方法 创建 一 个 并 行 
流 。BaseStreanm 接口 定义 了 


equential() 方法 以 获取 顺序 流 ， 也 
定义 了 parallel() 方法 以 获取 并 行 
ti。 顺序 流 与 并 行 流 可 以 互相 转换 ， 并 ] 
不 限 次 数 。 需 要 考虑 的 是 ， 末 端的 流 操 
行 完 毕 时 ， 所 有 的 流 操 作 都 将 按 照 最 后 
次 设置 进行 处 理 。 无 法 命令 流 去 顺序 执 
一 些 操 作 ， 并 发 执行 另 一 些 操 作 。 从 内 
来 看 ，Oracle JDK 9 和 Open JDK 9 中 的 
行 流 采用 Fork/Join 框 架 的 一 种 实现 来 
。 流 受 函 数 式 编程 和 和 Scala 编程 语言 的 影响 
很 大 。 你 可 以 使 用 新 的 lambda 表 达 式 作 ; 
定义 算法 的 方式 ， 这 样 的 算法 在 针对 流 的 


。 流 不 可 重用 。 例 如 ， 从 某 个 值 列表 
一 个 流 时 ， 该 流 只 能 使 用 一 次 。 如 
同样 的 数据 之 上 执行 另 一 操作 ， 那 


。 流 可 对 数据 做 延迟 处 理 。 除非 必要 ， 否则 
流 并 不 会 获取 数据 。 正 如 稍 后 将 学 到 的 ， 


の 


SÉ 


Em 


a 


Lok SS 
HEN 


ot 
3 
Nis 


© 不 能 以 不 同方 式 访问 流 的 元 素 。 采 用 某 种 
数据 结构 时 ， 可 以 访问 其 中 存储 的 某 个 特 
定 元 素 ， 例 如 指明 它 的 位 置 或 者 键 。 流 操 
FE 通常 对 元 素 做 统一 处 理 ， 因 此 你 有 的 只 
9 元素 本 身 。 你 无 法 知道 元 素 在 流 中 的 位 
置 及 其 相 邻 元 素 。 对 于 并 行 流 而 言 ， 可 Lb 
头 任何 顺序 处 理 元 素 。 
。 流 操作 并 不 允许 修改 流 的 源 。 例 如 ， 如 果 
区 用 一 个 列表 作为 流 的 源 ， 那 么 可 以 将 处 
理 结果 存放 在 新 列表 中 ， 但 是 不 可 以 添 


a A mE P 


尽 


H 


o Fe 制 , 


流 时 


但 


征 这 一 特性 也 非常 


可 从 内 部 Collection 创 建 的 


H 心 该 列表 会 会 被 调 


8.1.2 ” 流 的 组 成 部 分 


流 有 三 个 不 


同 的 部 分 ° 
生成 供 流 使用 的 数 


0 个 或 者 多 个 中 间 操作 ， 


一 个 流 作为 输出 。 


生成 対象 的 末端 操作， 
个 简单 对 象 ， 也 可 以 是 一 个 类 似 数组 、 列 
KRAAIE EM Collection 。 也 可 以 


用 者 修改 。 


据 的 来 源 。 


这 些 操作 产生 另 


该 对 象 可 以 是 一 


存在 


产生 任 


流 的 来 源 
流 的 来 源 可 产生 将 


何 SZ 式 经 


+ 


数据 。 可 从 多 个 数 : 


+Java 8 


Ri 
生成 的 流 


合 
数据 结构 


可 以 生成 流 的 数 


, Collection 
质 序 流 的 stream( ) 方 法 , 
席 的 parallelStream( ) 方法 。 
帘 所 能 处 理 的 数 ] 
在 Java 中 实现 的 数据 结构 ， 
ArrayList > LinkedList = 
(HashSet ヽ EnumSet ) , 


Stream * 


据 源 创 建 一 个 流 。 例 如 


有 果 的 末端 操作 。 


| 象 处 理 的 


ETE 


接口 


包括 
以 及 生成 并 
这 样 
以 来 自 几 乎 
例如 列 


HETI 


LinkedBloFmackingDeque ` 
riorityBlockingQueue 等 ) 
据 结构 是 数组 。Array 


类 含有 四 天 


版 本 可 从 数组 


stream() 方 法 


。 如 果 将 


数组 传递 给 该 方法 ， 


已 将 4 
IntStream 。 这 实现 


He Pê 


特殊 的 


KH 


了 于 处 BE, 


流 , 


但 是 性 能 可 能 会 
与 此 类 似 ， 还 可 
double[] 数组 
DoubleStream 
stream() 方 法 


全 | 


型 数值 


(你 人 依然 可 以 使 用 


Stream<Integer> & 


代 TntStream , 


比较 差 ) 。 


义 从 1ong [] 数组 或 

建 LongStream 或 者 
。 当 然 ， a) 
ei 08 


一 个 同样 类 型 的 j 


pus) 


Tt o É 
parallelStream() 


换 成 为 并 发 流 


可 以 调用 
定义 的 parallel() ME, $ 


o 


流 API 还 提供 了 男 


个 有 


的 功能 ， 


生成 流 


He 


MAN 
A 


理 文件 的 方法 


日 按照 流 的 方 


式 处 理 


NZ ° File #4 


o 例 


一 个 含有 Path 対象 的 流 , E 


提供 了 多 种 使 用 
find() 方法 
其 中 含有 


an, 


文件 樹 中 満足 特定 条件 的 文件 o ) 
方法 返回 一 个 Path 对 象 流 ， 其 中 含有 


zlines() 方法 ， 它 创建 

对 象 流 ， 其 中 含有 文件 区 ; 

AT LUE RA “BSCS ose RAY 

是 ， 以 上 提 到 的 方法 在 并 行 处 理 时 性 能 都 

Pen 除非 有 成 千 上 万 的 元 素 (文件 或 
行 ) 。 


同样 ， 可 以 使 用 Stream 接口 提供 的 两 个 
方法 来 创建 流 ， 即 generate( ) 方法 和 
iterate() 方法 。generate( ) 方法 接 
收 由 某 一 对 象 类 型 参数 化 的 Supplier (E 
为 参数 ， 生 成 该 类 型 对 象 的 一 个 无 限 顺序 
Gt > Supplier 接口 中 含有 get ( ) 方 


无 疑问 ， 流 本 质 上 就 是 无 限 的 。 你 可 以 使 
用 其 他 方法 转换 该 无 限 流 。iterate() 
方法 与 之 类 似 ， 但 是 对 于 这 种 情况 ， 该 方 
法 会 接收 一 个 种 子 和 一 个 
UnaryOperator 。 第 一 个 值 是 将 
UnaryOperator 应 用 于 i , 
第 二 个 值 是 将 Unaryoperator 应 用 于 第 
一 个 结果 所 产生 的 结果 ， 以 此 类 推 。 由 于 
性 的 问题 ， 在 并 发 应 用 程序 中 应 该 
尽 可 能 避免 使 用 该 方法 。 


还 有 更 多 流 的 源 ， 如 下 所 示 。 


o String.chars(): 它 返 回 一 个 
IntStream ， 其 中 含有 String 的 
char 值 。 
Random.ints() > 
Random. doubles() 或 者 
Random. longs() : 这 些 方法 分 别 
返 回 TntStream ヽ Doub1eStream 
和 LongStream , 其 中 分 別 帯 有 各 
类 型 的 伪 随 机 值 。 你 可 以 指定 随机 
数 的 数值 范围 ， 或 者 你 想 要 获得 的 随 
机 值 的 个 数 。 例 如 ， 你 可 以 使 用 new 
Random. ints(10,20) 来 生成 10 到 
20 之 间 的 伪 随 机 数 。 
SplittableRandom: 该 类 提供 了 
与 Random 类 相同 的 方法 ， 可 生成 
int > double 和 1ong 型 的 伪 随 机 
值 ， 但 是 该 类 更 适合 用 于 并 行 处 理 
查看 Java API 文 档 了 解 该 类 的 谤 
细 情 况 。 
o Stream.concat() 方法 : 该 类 接 
收 两 个 流 作 为 参数 ， 并 且 创 建 出 一 个 


FF 
an» 
on 
过 
ta 


o 


o 


Trg E 


4 元 素 的 后 面 。 


y 


将 第 二 个 流 的 元 素 接 在 第 一 


还 


中 间 操 作 


中 | 


Ed 


ai) 


些 源 生成 流 ， 但 是 我 们 认 


些 来 源 并 不 是 


要 的 特 和 


EZ o 


征 在 于 它 ; 


VENHA 


H 


o 


RIK 


回 。 输 入 流 
以 是 不 同类 型 的 ， 但 
新 流 。 一 个 流 可 以 有 
Stream 接 


EL 和 输出 流 的 对 


o distinct(): 


値 的 流 , 


有 唯 


F 是 如 下 几 项 。 


该 方法 返回 
所 有 重复 元 素 都 将 被 


去 除 。 


filter(): 


该 方法 返回 


Es 


a 特 


标准 


有 満 
的 元素 的 流 ° 


IETT AD 


) : 该 方法 用 于 将 一 个 关 
网 如 一 个 关于 列表 、 集 名 
成 单个 流 。 


该 方法 返回 


1 


se 


指定 数 目的 原始 元素 , 人 
o 照相 遇 顺 序 选 取 。 
法 用 于 将 流 的 元 素 从 
O 种 类 型 。 

: 该 方法 返回 相同 的 流 


些 代码 ， 通 常用 于 1 


: 该 方法 忽略 了 流 


排序 。 
。 末端 操作 


sorted(): 


以 参数 方 
该 方法 对 流 的 元 


末端 操作 将 某 个 对 象 作 为 经 


ESA lol, TZ 


不 会 返 回 


的 是 整 


个 流 。 
以 一 个 末端 操作 丝 
个 操作 序列 
末端 操作 有 如 下 几 


o correc: 


Za 
H 


所 有 流 都 
端 操作 返 


。 最 重要 上 


般 来 说 ， 
R, MZR 


的 最 用 结果 
项 


“ aa 


= 


该 方法 提供 了 


Arte» 
日 


源流 


元素 数 的 方 法 、 以 


Sate MZ 


内 该 流 的 元 素 。 例 如 ， 


组 。 


义 按照 


EAA 


标准 对 流 的 7 f 


count(): 


CAA 
该 方法 返回 流 的 元 素数 


J 最 大 元 


し 


流 的 最小 元 


o reduce(): 
为 一 个 表示 


该 方法 将 流 的 元 素 转换 
该 流 的 唯一 对 象 。 


o DOREEN ) /forEachOrdered() 


: 这 两 个 方 
每 个 元 素 上 
的 顺序 ， HR 
流 元 素 的 顺序 


o 


findFirst()/findAny(): 如果 


法 将 某 项 操作 应 用 到 流 的 
。 如 果 流 已 经 有 了 定义 好 
| 就 会 使 用 该 


要 找 的 元 素 


存在 ， en 返 


可 1 或 者 流 的 第 一 人 元素 ・ 


o anyMatch( ) laten ) 


/noneMatc 
EN 


h( ) : 它们 接收 一 个 谓词 
返回 一 个 布尔 值 来 表明 流 


中 是 否 有 任 间 


意 、 全 部 或 者 没有 元 素 能 


o 


够 匹配 该 谓词 。 
toArray(): 该 方法 返回 一 个 含有 
流 的 元 素 的 数组 。 


8.1.3 MapReduce$MapCollect 


MapReduce 是 一 种 编程 模型 ， 用 于 在 由 大 


量 以 集群 方式 工作 的 机 器 构成 的 分 布 式 环 


境 中 处 理 超大 规模 数据 集 。 它 有 两 个 步 


怠 ， 通 常 通过 以 


两 个 方法 实现 。 


o Map: 这 一 步 对 数据 进行 筛选 和 转 


为 了 在 分 布 式 环境 


o Reduce: 这 一 步 对 数据 应 用 汇总 操 
作 


中 执行 该 操作 ， 必 须 分 


割 数据 ， 然 后 将 
FE o 该 编程 模 


分 发 到 集群 中 的 各 台 机 
型 在 函数 式 编程 领域 已 经 


更 用 很 长 时 间 了 


现 广 受 欢 迎 。 


设计 了 一 种 新 的 框架 ， 而 且 在 Apache 基 金 
会 中 ，Hadoop 项 目 作 为 该 模型 的 开源 实 


+ 


。Google 近 期 基于 该 原理 


Java 9 提供 的 流 操 作 人 允许 编程 人 员 实现 与 


»filter() > 


此 非常 类 似 的 结果 
可 以 视 为 映射 函数 的 中 间 操 作 (map( ) 


o Stream 接口 定义 了 


sorted() »skip() 


等 ) , 面 且 提 供 了 reduce( ) 方法 作为 末 
端 操作 ， 其 目的 是 像 MapReduce 模 型 的 约 
简 操作 那样 对 流 的 元 素 进 行 约 简 。 


约 简 操作 的 主要 思想 是 基于 前 面 的 中 


果 和 流 元 素 创 建 


的 替代 方法 (也 称 为 可 变 约 简 


个 新 的 中 间 


结果 项 整合 到 可 变 容 器 中 (例如 


HE o 
是 将 
将 


间 

约 

E 
IN 


ES 


到 ArrayList ) 


collect () 操作 


MapCollect 模 型 


Ess 


Ly 
o 这 种 类 型 的 约 简 通 j 
LE 执行 ， 因 而 称 之 为 


o 


本 章 将 介绍 如 何 


更 用 MapReduce 模 型 , 第 


9 章 将 介绍 如 何 使 


用 MapCollect 模 型 。 


8.2 


第 一 个 例子 : 数值 综合 
分 析 应 用 程序 


拥有 一 个 大 规模 数据 集 时 ， 最 常见 的 需求 
就 是 对 其 元 素 进行 处 理 ， 以 计算 某 些 
特征 的 指标 。 例 如 ， 如 果 你 有 一 个 商店 的 
已 售 产品 集合 ， 可 以 计算 已 售 产品 的 数 
量 、 每 种 产品 的 销量 ， 或 者 每 个 客户 对 每 
产品 的 平均 购买 量 。 我 们 将 这 个 过 程 称 
人 数 値 祭 合 分 析 ・ 


本 章 将 使 用 流 来 计算 UCI 机 器 学 习 资源 库 


的 Online Retail) 
据 集 


据 集 的 一 些 指标 。 该 数 
存储 了 2010 年 1 


1128 2201149A 12 


HAARE RERE IENA 


, [ 

相当 的 串 行 版 程序 ， 
流 提升 了 性 能 。 正 如 在 
E 意 并 发 处 理 对 于 编程 


{他 各 章 不 同 ， 本 例 
本 PESTE 


先 介 绍 使 用 流 的 并 
如 何 实现 一 个 与 之 


ya 
以 验证 并 发 性 也 使 用 


要 六 


的 。 


821 并 发 版 本 


数值 综合 分 析 应 


程序 非常 简单 ， 其 组 成 


部 分 如 下 所 示 。 


下面 


o 


o 


o 


Record: 该 类 定义 了 文件 中 每 条 记 


录 的 内 部 结构 。 


它 定 义 了 每 条 记录 的 


8 个 属性 以 及 用 于 获取 和 设 定 这 些 属 
性 値 的 get( ) Alset() 方法 。 该 类 
的 代码 非常 简单 ， 因 此 在 本 书 中 并 未 


给 出 。 
ConcurrentDataLoader : 该 类 
于 加 载 含有 数据 的 
Online_Retail.csv 文 件 ， 并 且 将 其 转 


成 一 个 Record TRIE s 我们 将 


换 
喝 用 流 来 加 载 数据 并 完成 转换 。 
CO 


ncurrentStatistics : 该 类 


实现 了 用 于 数据 计算 的 各 项 操作 。 
o ConcurrentMain : 该 类 实现 了 


main() 方法 ， 


来 调用 


ConcurrentStatistics 类 的 各 


项 操作 并 且 测 量 


执行 时 间 。 


详细 介绍 


中 后 三 个 类 。 


~ p=] 


a. ConcurrentDataLoader & 


ConcurrentDataLoader 类 实现 


Tload() 方法 ， 
Online Retail 数 所 
转换 成 一 个 Rec 


该 方法 将 加 载 带 有 


居 集 的 文件 并 且 将 其 
ord 対象 列表 


先 , 使用 Fi1es 美的 
readA11Lines( ) 方法 加 载 该 文 
件 ， 并 且 将 其 内 容 转换 为 一 个 字符 唱 
列表 。 该 文件 的 每 一 行 都 将 被 转换 为 
该 列表 的 一 个 元 素 。 


HE 


public class ConcurrentDataLoader 

public static List<Record> 
load(Path path) throws IOException 
{ 


System.out.println("Loading 
data"); 


List<String> lines = 
Files.readAllLines(path); 


然后 ， 通 过 对 该 流 应 用 必要 的 操作 以 


得 到 Record 対象 列表 


=. 


List<Record> records = 
lines.parallelStream() 


.skip(1).map(1 -> 1.split(";")) 
.map(t 
-> new Record(t)) 


.collect(Collectors.toList()); 


在 这 里 用 到 的 操作 有 如 下 几 项 。 
o parallelStream() : 创建 一 


+4. 4 


个 并 行 流 来 处 理 该 文件 的 


F 
= 
= 
Dt 


o indo 忽略 该 流 的 第 一 
项 ; 在 本 例 中 ， 即 文件 的 第 一 
行 ， 包含 了 文件 的 头 信息 。 

o map (1 っ 1.split(";")) 

: 对 String[] 数组 中 的 各 个 字 

符 串 进行 转换 ， 用 ，; 字符 分 

本。 使 用 lambda 表 过 

\ 表 输入 参数 ， 而 

HE 


在 一 个 字符 串 的 流 d 
E, 哲生 成一 介 String[] it 
o map(t > new Record(t)) 
: JRecord 类 的 构造 函数 将 
每 个 字符 串 数组 转换 成 一 个 
Record 对 象 。 使 用 一 个 lambda 
表达 式 ， 其 中 t 代表 字符 串 数 
组 。 在 一 个 关于 String[] 的 流 


F 


o 


1 调用 该 方法 ， 生 成 一 个 
Record 对 象 流 。 

o collect(Collectors.toLi 
st()): AN o 

个 列表 。 第 9 章 会 更 详细 地 介 

collect() 方 法 ・ 


如 你 所 见 ， 我 们 以 一 种 紧凑 、 优 雅 且 
并 发 的 方式 完成 了 转换 ， a 
用 任务 或 者 框架 o 
A, Y 


ve 


E 可 Record 対象 列表 , 如 下 所 
return records; 
} 
} 


ß. ConcurrentStatistics É 


ConcurrentStatistics 5 
了 对 数据 进行 微 积分 计算 的 各 种 7 
导 有 六 Ka 
ra 


DE 


a 


法 。 有 七 种 操作 可 用 于 获 
集 的 信息 ， 下 面 分 别 进 生 


o 来 自 英国 的 客户 


该 方法 的 主要 目的 是 获得 每 位 英 
国 客户 订购 的 产品 数量 。 


该 方法 的 源 代 码 如 下 : 


> 


public static void 
customersFromUnitedKingdom(Lis 
t<Record> records) { 


System.out.println("*******x*x** 
EER OS! 


, 


System.out.printin("Customers 
from UnitedKingdom"); 

Map<String, List<Record>> 
map = 
records.parallelStream().filte 
r(r -> 
r.getCountry().equals("the 
United 
Kingdom")).collect(Collectors. 
groupingBy (Record: :getCustomer 

; 

map.forEach((k, 1) -> 


System.out.println(k + ": "+ 
1.s1ze( ) ) ) : 


System.out.println("*******x*x** 
A RO O! 


, 


} 


该 方法 接收 Record 対象 的 列表 
作为 输入 参数 。 首 先 ， 使 用 流 获 
取 一 个 
ConcurrentMap<String, 
List<Record>> wR, E 
客户 ID 以 及 含有 每 个 客户 相关 
录 的 列表 。 该 流 首先 从 
parallelStream() 方法 创 
一 个 并 行 流 。 然 后 ， 使 用 
filter() 方法 选择 那些 
country 属性 值 为 'the 
United Kingdom' 的 Record 
対象 ・ 最 后 . 使用 co11ect( ) 
方法 ， 传 递 
Collectors.groupingByCo 
ncurrent( ) 方 法 的 功能 , 投 
照 job 属性 的 取 值 对 流 的 实际 元 
素 进 行 分 组 。 需 要 考虑 的 是 
groupingByConcurrent() 
方法 是 无 序 的 收集 器 。 收 集 到 列 
表 中 的 记录 可 以 以 任意 顺序 排 
列 ， 而 非 原始 顺序 (和 简单 的 
groupingBy() 收集 器 不 


同 


cu 4 


any 


irri 


To) 


一 旦 获得 了 ConcurrentMap 对 
象 ， 就 可 以 使 用 forEach( ) 方 
法 将 信息 输出 到 屏幕 。 


。 来自 英国 的 订单 的 产品 数量 

该 方法 的 主要 目的 是 获得 来 自贡 
国 的 订单 的 产品 数量 的 统计 信息 
(最 大 值 、 最 小 值 和 平均 值 ) 。 


该 方法 的 源 代 码 如 下 : 


public static void 
quantityFromUnitedKingdom(List 
<Record> records) { 


System.out.printin("********** 
kkkkxkxkkkkkkkkkkkkkkkkkkkkkkkkk 
"); 

System.out.println("Quantity 
from the United Kingdom"); 

DoubleSummaryStatistics 
statistics = 
records.parallelStream() 

.filter(r -> 

r.getCountry().equals("the 
United Kingdom")) 


.collect(Collectors.summarizin 
gDouble(Record::getQuantity)); 


System.out.println("Min: " + 


o 


statistics.getMin()); 
System.out.println("Max: " + 

statistics.getMax()); 
System.out.println("Average: 

" + statistics.getAverage()); 


System.out.println("********x** 


KR KK KKK KKK KKK KKK KKK KK KKK KH AA 


mM; 
} 


该 方法 接收 Record 対象 列表 
为 输入 参数 ， 并 且 使 用 流 来 获 了 
带 有 统计 信息 的 
DoubleSummaryStatistics 
対象 * TT, 使 J 
parallelStream() 方法 获取 
‘il: Mia, 使用 f11ter( ) 
ERRA REINER > He 
Ja, 使用 以 
Collectors.summarizingD 
ouble() 力 参 数 的 co11ect( ) 
方法 获取 
DoubleSummaryStatistics 
对 象 。 该 类 实现 了 
DoubleConsumer 接口 ， 并 且 
収集 在 accept( ) 方法 中 接收 到 
的 数值 的 统计 数据 。 该 流 的 
collect() 方法 在 内 部 调用 了 
accept() 方法 。Java 还 提供 了 
IntSummaryStatistics 类 
和 LongSummaryStatistics 
类 ， 同 样 也 是 为 了 从 int 型 和 
long 型 数值 中 获取 统计 数据 。 


本 例 使 用 max()、min() 和 
average() 方法 分 别 获取 最 大 
值 、 最 小 值 和 平均 值 。 


订购 产品 的 国家 


该 方法 的 主要 目的 是 获取 订购 J 
ID 为 85123A 的 产品 的 国家 列 


se m 


表 。 


该 方法 的 源 代 和 


如 下 : 


public static void 
countriesForProduct(List<Recor 
d> records) { 


dEl 


System.out.println("********x** 


KR KR KKK KKK KKK KKK KK KK KK KK KKK KKK 
Wy. 
); 


System.out.println("Countries 


for product 85123A"); 
records.parallelStream().filte 
r(r -> r.getStockCode() 
.equals("85123A")).map(r -> r 
.getCountry()).distinct().sort 
ed() 
.ForEachOrdered(System.out::pr 
intln); 


System.out.println("********** 
kkkkkkkkkxkkkkkkkkkkkkkkkkkkkkk 


"); 
} 


该 方法 接收 一 个 Record 対象 列 
表 作为 输入 参数 ， 并 且 使 用 
parallelStream() 方法 获取 
行 流 。 然 后 ， 使 用 filter() 
方法 仅 获 取 与 该 产品 相关 的 记 
录 。 然 后 ， 使 用 map( ) TER 
取 一 个 String WAR, EFE 
有 与 记录 相关 的 国家 名 称 。 借助 
distinct() 方法 ， 仅 选取 唯 
一 值 ， 而 借助 sorted( ) 方法 ， 
E 以 按照 字母 顺序 对 这 些 值 进行 
ER o 


最 后 ， 使 用 
forEachordered() 方法 输出 
结果 。 请 注意 ， 此 处 不 要 使 用 
forEach() 方法 ， 因 为 它 输出 
的 结果 没有 特定 顺序 ， 这 将 使 
sorted() 这 一 步 的 工作 成 为 无 
JH o 元素 順序 井 不 重要 時 
forEach( ) 操作 就 很 有 用 了 。 
对 于 并 行 流 来 说 ， 它 上 
er 方法 的 处 
理 速度 更 快 。 


产品 数量 


使 用 流 时 ， 最 常见 的 错误 之 一 是 
试图 重用 流 。 我 们 会 展示 这 种 做 
法 所 产生 的 错误 结果 。 该 方法 的 
主要 目的 是 获取 ID 为 85123A 日 

产品 记录 相关 的 最 大 和 最 小 产品 


该 方法 的 第 一 个 版 本 是 尝试 重 
一 个 流 ， 其 源 代码 如 下 : 


public static void 
quantityForProduct (List<Record 
> records) { 


System.out.println("*******x*x** 
kkkkxkxkxkxkkxkkkkkkkkkkkkkkkkkkkkk 


了 
System.out.printin("Quantity 
for Product"); 


IntStream stream = 
records.parallelStream().filte 
r(r ->r 


.getStockCode().equals("85123A 
")) 


.mapToInt(r -> 
r.getQuantity()); 


System.out.printin("Max 
quantity: " + 
stream.max().getAsInt()); 

System.out.printin("Min 
quantity: " + 
stream.min().getAsInt()); 


System.out.println("*******x*x** 
kkkkkkkkkxkkkkkkkkkkkkkkkkkkkkk 


"); 
} 


该 方法 接收 一 个 Record 対象 列 
表 作 为 输入 参数 。 首 先 ， 使 用 该 
列表 创建 一 个 IntStream 对 
Ko 借 助 para11e1Stream( ) 
方法 ， 创 建 一 个 并 行 流 。 然 后 ， 


使 用 filter( ) 方法 获取 与 产品 
相关 的 记录 ， 使 用 mapToInt ( ) 


方法 将 一 个 Record 对 象 的 流转 
换 成 一 个 IntStream 对 象 ， 用 
getQuantity() 方 法 的 値 替 換 
每 个 对 象 。 


借 助 max( ) 方法 ， 可 以 用 该 流 
获取 最 大 值 ， 而 借助 min( ) 方 
法 ， 可 以 获取 最 小 值 。 如 果 再 次 
执行 该 方法 ， 将 立刻 得 到 
IllegalStateException + 
常 ， 并 且 获 得 “已 经 对 流 进 行 操 
作 *” 或 者 “ 流 已 关闭 ”的 消息 。 


public static void 
quantityForProductOk(List<Reco 
rd> records) { 


System.out.println("********** 
kkkkxkxkkkkkkkkkkkkkkkkkkkkkkkkk 
"); 

System.out.println("Quantity 
for Product Ok"); 

int value = 
records.parallelStream().filte 
r(r -> 
r.getStockCode().equals("85123 
A")).mapToInt(r -> 
r.getQuantity()).max() 
.getAsInt(); 


System.out.printin("Max 
quantity: " + value); 


value = 
records.parallelStream().filte 
r(r -> r.getStockCode() 


.equals("85123A")).mapToInt(r 
-> r 


.getQuantity()).min().getAsInt 
O; 


System.out.printin("Min 
quantity: " + value); 


System.out.println("*******x*x** 
kkkkxkxkxkkkxkkkkkkkkkkkkkkkkkkkkk 


mM; 
} 


另 一 个 供 选 方案 是 使 用 
summaryStatistics() 方法 
获取 IntSummaryStatistics 
a 这 与 上 文 所 给 出 的 方法 相 
E] o 


多 个 数据 筛选 器 


该 方法 的 主要 目标 是 获取 至 少 满 
足 如 下 条 件 之 一 的 记录 数 。 


= quantity 属性 值 大 于 50 的 
记录 数 。 

= unitPrice 属性 值 大 于 10 
的 记录 数 。 


实现 该 方法 的 一 种 解决 方案 是 实 
现 一 个 筛选 器 来 检验 元 素 是 否 满 
足 这 些 条 件 。 另 一 种 解决 方案 可 
以 借助 Stream 接口 提供 的 
concat( ) 方法 。 源 代码 如 下 所 
ZN: 


public static void 
multipleFilterData(List<Record 
> records) { 


System.out.println("*******x*x** 
kkkkxkxkxkxkxkxkkkkkkkkkkkkkkkkkkkkxk 
0 の 
了 
System.out.printin("Multiple 
Filter"); 


Stream<Record> stream1 = 
records.parallelStream() 


.filter(r -> r.getQuantity() > 
50); 

Stream<Record> stream2 = 
records.parallelStream() 


.filter(r -> r.getUnitPrice() 
> 10); 

Stream<Record> complete = 
Stream.concat( stream1, 
stream2 ) / 


Long value = 
complete.parallel().unordered( 
).map(r -> r 


.getStockCode()).distinct().co 
unt(); 


System.out.println("Number 
of products: " + value); 


System.out.printin("********** 


KR KK KKK KKK KKK KKK KKK KK KKK KKK KKK 


"); 


该 方法 接收 Record 対象 列表 作 
为 输入 数 。 首 先 ， 创 建 两 个 
ht, HASH AE Lutte 
的 元素 , 然 后 使用 concat( ) 方 
l 门 合并 成 单一 的 流 。 
方法 创建 的 流 只 是 将 
直接 跟 到 第 一 个 
流 的 元 素 后 。 出 于 这 种 原因 ， 对 


行 流 应 用 distinct() 方法 
时 获得 更 好 的 性 能 ， 使 Hmap( ) 


da HFR vá 
使用 distinct( ) 方法 获得 唯 
一 値 , 使用 count( ) 方法 获得 
流 中 的 元素 数 ・ 


这 并 不 是 最 优 的 解决 方案 。 我 们 
只 是 用 它 展 示 了 concat ) 和 


distinct() 方 法 如何 工作 ° 
可 以 使 用 下 面 的 代码 以 更 优 的 方 
式 实现 同样 的 结果 o 


public static void 
multipleFilterDataPredicate 
(List<Record> records) { 


System.out.println("*******x*x** 
kkkkxkxkxkxkkxkkkkkkkkkkkkkkkkkkkkk 
"); 
System.out.println("Multiple 
filter with Predicate"); 


Predicate<Record> p1 = r -> 
r.getQuantity() > 50; 

Predicate<Record> p2 
r.getUnitPrice() > 10; 


Il 
= 
1 
V 


Predicate<Record> pred = 
Stream.of(p1, p2) 


.reduce(Predicate::or).get(); 


long value = 
records.parallelStream().filte 
r(pred).count(); 

System.out.printin("Number 
of products: " + value); 


System.out.println("*******x*x** 
kkkkkkkkkxkkkkkkkkkkkkkkkkkkkkk 


"); 
} 


圭一 个 含有 两 个 谓词 的 
流 ， 并 且 通 过 Predicate: :or 
如 作 约 简 ， 进 而 构建 复合 谓词 ， 
当 任 何 一 个 输入 谓词 为 true 
寸 ， 该 谓词 都 为 true ・ 也 可以 
使 用 Predicate: : and 约 简 操 
作 构 建 一 个 复合 谓词 ， 如 此 当 所 
司 都 为 true 时 ， 复 合 
谓词 才 为 true > 


最 高 发 货 量 


该 方法 的 主要 目的 是 获取 发 货 量 
最 高 的 10 张 发 货 


先 ， 构 建 一 个 Map， 其 键 为 发 
货 单 的 ID， 其 值 为 与 发 货 单 相关 
联 的 所 有 记录 的 列表 。 


= 
=i 
& 
= 
mit 
THE 


el 


E 


o 


=... 


public static void 
getBiggestInvoiceAmmounts(List 
<Record> records) { 


System.out.printin("********** 
kkkkxkkxkkkxkkkkkkkkkkkkkkkkkkkkk 


LU 
); 
System.out.println("Biggest 
Invoice Ammounts"); 


Map<String, List<Record>> 
map = 
records.stream().unordered() 
.parallel().collect(Collectors 


.groupingByConcurrent(r -> 
r.getId())); 


使用 unordered( ) 方法 删除 列 
表现 有 的 顺序 ， 以 便 在 并 行 操作 
时 获得 更 好 的 性 能 。 然 后 ， 使 


groupingByConcurrent() 
収集 器 的 co11ect( ) 方法 获得 
最多 的 Map * 


第 二 步 ， 创 建 关 于 Invoice 对 
象 的 
ConcurrentLinkedDeque 数 


据 结构 。 这 部 分 源码 如 下 所 示 : 


ConcurrentLinkedDeque<Invoice> 
invoices= new 
ConcurrentLinkedDeque(); 
map.values().parallelStream(). 
forEach( list -> { 

Invoice invoice = new 
Invoice(); 


invoice.setId(list.get(0).getI 


d()); 
double 


ammount=list.stream().mapToDou 
ble(r -> r.getUnitPrice()* r 


.getQuantity()).sum(); 
invoice.setAmmount (ammount); 


invoice.setCustomerId(list.get 
(0).getCustomer()); 


invoices.add(invoice); 


»i 


这 里 我 们 有 两 个 流 。 首 先 ， 使 

行 流 处 理 上 一 个 Map 中 的 所 丰 

值 。 对 于 每 个 含有 发 货 单 记 录 的 

列表 ， 使 用 发 货 单 ID、 客 户 ID 和 
E 


AO Birke 
货 总 量 等 E 


Invoice 对 象 。 为 了 计算 每 个 
货 单 的 总 量 ， 使 用 另 一 个 流 和 


mapToDouble() 方法 将 每 条 记 
录 更 改 为 每 种 产品 的 单位 数量 和 
unitPrice 属性 ， 并 且 使 用 
sum() 方法 对 最 终 Stream 
所 有 值 进行 汇总 。 之 所 以 使 用 
ConcucrrentLinkedDeque 
8, BANE NARA A 
入 操作 并 且 不 会 引起 数据 竞争 ， 
而 这 一 特性 对 于 当前 情况 非常 重 


En 


最 后 ， 获 取 发 货 量 最 高 的 10 张 发 
货 单 ， 这 部 分 代码 如 下 所 示 : 


System.out.println("Invoices: 
"+invoices.size()+": 
"+map.getClass()); 


invoices.stream().sorted(Compa 
rator.comparingDouble 


(Invoice: :getAmmount).reversed 
()).limit(10).forEach(i -> 


System.out.println("Customer:" 
+i.getCustomerId() + 


"; Ammount: "+ 
i.getAmmount())); 


System.out.println("********** 
kkkkxkxkxkkkxkkkkkkkkkkkkkkkkkkkkk 
"); 


使用 
ConcurrentLinkedDeque 数 
据 结构 创建 流 。 使 用 sorted() 
方法 进行 排序 ， 以 将 发 货 量 最 大 
的 发 货 单 排 在 最 前 面 ， 将 发 货 量 
较 小 的 发 货 单 放 在 后 面 。 再 使 用 
limit() 方法 选取 发 货 量 最 高 
的 10 张 发 货 单 ， 并 


行 操作 ， 因 此 采用 了 顺序 流 。 采 
用 并 发 流 并 不 会 带 来 更 好 的 性 
HE ? 


o 单价 在 1 到 10 之 间 的 产品 


该 方法 的 主要 目标 是 获取 文件 中 
单价 在 1 到 10 之 间 的 产品 数 。 


该 方法 的 源 代码 如 下 所 示 : 


public static void 
productsBetweenland10(List<Rec 
ord> records) { 


System.out.println("*******x*x** 
kkkkxkxkxkkkxkkkkkkkkkkkkkkkkkkkkk 


了 

System.out.println("Products 
between 1 and 10"); 

int 
count=records.stream().unorder 
ed().parallel().filter(r -> (r 


.getUnitPrice() >=1 ) && 

(r.getUnitPrice() <=10)) 
.map(i - 

> i.getStockCode()).distinct() 


.mapToInt(a -> 1).reduce(0, 

Integer: :sum); 
System.out.printin("Products 

between 1 and 10: "+count); 


System.out.println("*******x*x** 
kkkkxkkkkkxkkkkkkkkkkkkkkkkkkkkk 
MN; 


该 方法 接收 Record 対象 列表 作 
为 输入 参数 ， 并 且 使 用 
stream() *unordered() 和 
parallel() 方法 获取 一 个 并 
行 流 ， 且 不 受 该 流 现 有 的 排序 限 
制 。 然 后 ， 使 用 filter( ) 方法 
仅 选 取 unitPrice 值 在 1 到 10 
之 间 的 记录 。 接 下 来 ， 使 用 
map() 方法 将 每 个 记录 替换 为 
EstockCode 属性 的 值 。 之 
后 ， 使 用 distinct( ) 方法 删 

除 重复 记录 ， 并 且 使 用 map( ) 

方法 将 每 个 取 值 转换 为 值 1。 最 
后 ， 使 用 reduce( ) 方法 将 所 有 


1 值 汇总 起 来 并 且 返 回 最 终结 
Ho 

reduce() 方法 的 第 一 个 参数 是 
ID ， 第 二 个 参数 是 用 于 从 流 的 


所 有 元 素 中 获取 单个 值 的 操作 。 


AF Integer: : sum 操 

作 。 第 一 次 是 对 初始 值 和 流 的 第 
一 个 值 求 和 ， 第 二 次 则 是 对 第 一 
次 求 和 的 结果 与 流 的 第 二 个 值 i 
行 求 和 ， 以 此 类 推 。 


o ConcurrentMain 类 


ConcurrentMain 类 实现 了 
main() 方法 ， 用 于 测试 

ConcurrentStatistic 3 
先 , Hmeasure() 方法 ， 
六 测量 一 个 任务 的 执行 时 间 。 


US 


(a3 


public class ConcurrentMain { 
static Map<String, 
List<Double>> totalTimes = new 
LinkedHashMap<>(); 
static List<Record> records; 


private static void 

measure(String name, Runnable 
r) { 

long start = 
System.nanoTime(); 

r.run(); 

long end = 
System.nanoTime(); 


totalTimes.computeIfAbsent (nam 
e, k -> new ArrayList<>()) 

.«add( (end - 
start) / 1 000 000.0); 


} 


区 用 一 个 Map 存 放 每 个 方法 的 执 
行 时 间 。 每 个 方法 将 执行 10 次 ， 
头 观察 在 第 一 次 执行 之 后 执行 时 
司 如 何 缩减 。 然 后 ， 给 出 
main() 方法 的 代码 。 它 使 用 
measure() 方法 度量 每 个 方法 
的 执行 时 间 并 且 将 该 过 程 重复 
10 次 。 


a 


public static void 
main(String[] args) throws 
IOException { 

Path path = 
Paths.get("data\\Online_Retail 
csv"); 


for (int i = 0; i < 10; i++) 


{ 

measure("Customers from 
UnitedKingdom", () -> 
ConcurrentStatistics 


.customersFromUnitedKingdom(re 
cords)); 

measure("Quantity from 
UnitedKingdom", () -> 
ConcurrentStatistics 


.quantityFromUnitedKingdom(rec 
ords)); 

measure("Countries for 
Product", () -> 
ConcurrentStatistics 


.countriesForProduct(records)) 


, 
measure("Quantity for 


Product", () -> 
ConcurrentStatistics 


.quantityForProductok(records) 
i 
measure("Multiple Filter 
for Products", () -> 
ConcurrentStatistics 


.multipleFilterData(records)); 
measure("Multiple Filter 
for Products with Predicate", 


O -> 


ConcurrentStatistics.multipleF 
ilterDataPredicate(records)); 
measure("Biggest Invoice 
Ammount", () -> 
ConcurrentStatistics 


.getBiggestInvoiceAmmounts(rec 
ords)); 

measure("Products Between 
1 and 10", () -> 
ConcurrentStatistics 


.productsBetweenland10(records 


)); 
} 


p! 


最 后 ， 将 所 有 执行 时 间 和 平均 执 
行 时 间 输 出 到 控制 台 ， 如 下 所 
IR: 


times.stream().map(t -> 
String.format("%6.2f", t)) 


.collect(Collectors.joining(" 


MD) 


times.stream().mapToDouble(Dou 
ble: :doubleValue) 


.average().getAsDouble())); 


} 


SI 


在 本 例 中 ， 串 行 版 和 并 发 版 几 
HJ, 只 是 将 对 

a11e1Stream( ) 方法 的 调 
替换 成 了 对 stream( ) 方法 上 
调用 ， 以 便 获 得 顺序 流 而 非 并 和 
流 。 我 们 还 要 删除 在 一 个 样 例 
H 到 的 対 para11e1( ) 方法 的 
调用 ， 并 且 将 调用 
groupingByConcurrent() 


【 


rr fl => 


方法 更 改 为 调用 
groupingBy() 方法 。 


8.2.3 对比 两 个 版 本 


执行 两 个 版 本 的 操作 ， 以 测试 并 
行 流 是 否 可 以 提供 更 好 的 性 能 。 


侦 用 JMH 框 架 执 行 该 操作 ， 该 
架 人 允许 你 在 Java 中 实现 微型 基 ? 
则 试 。 使 用 面向 基准 测试 的 杠 
是 比较 好 的 解决 方案 ， 它 直接 用 
currentTimeMillis() 或 者 
nanoTime() 方法 度量 时 间 o 
在 两 种 不 同 的 架构 上 分 别 执行 这 
些 示例 10 次 。 


É 


y 


A 
yA 
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a 


a 一 台 计 算 机 配置 了 Intel Core 
i¡5-53004h HE 45 > Windows 7 
操作 系统 和 16GB 的 RAM ° 
该 处 理 器 有 两 个 核 ， 且 每 个 

核 可 以 执 行 两 个 线程 ， 这 样 


= 另 一 台 计 算 机 配置 了 AMD 
A8-640 外 理 器 Windows 10 
操作 系统 和 8GB 的 RAM > 
该 处 理 器 有 四 个 核 。 


以 下 便 是 运行 结果 ， 以 毫秒 为 单 


位 。 


Intel 架 构 AMD 架 构 
顺序 流 | 并 行 流 | 顺序 流 | 并 行 流 


19.146 | 15.517 |80.994 |45.833 


SHSHEES| FE 


SH 
ra 


242.593 | 240.003 | 783.044 | 750.199 


rR S H 


RE > SU 


81.612 |70.853 | 358.488 | 174.395 


m 
[N 


| Hin 


= 
= 


24.371 |20.026 | 101.658 | 60.098 


11.338 |9.462 56.81 |34.715 


E MD a o de 


ィ 


= 


45.065 |27.394 |187.91 |85.299 


24.614 |22.675 |126.088 | 65.897 


24.488 | 14.722 | 132.161 | 55.278 


BIS SEO) NG BR] BO 


我 们 可 以 看 到 并 行 流 总 是 比 串 行 
流 具 有 更 好 的 性 能 。 下 面 给 出 的 
是 所 有 示例 的 加 速 比 。 
Intel 加 | AMD 加 
操作 速 比 | 速 比 


订购 产品 的 


HI 


FR |1.23 1.77 


JA 11.01 1.04 


H 
MH 
A 

H 


pall 
> 


发 货 量 1.15 2.06 


多 筛选 器 数据 1.21 1.69 


AL E 

ms 和 figg [164 
单价 介 于 1 到 10 之 

间 的 产品 1.64 2.20 
产品 总 量 1.08 1.91 
英国 订购 的 总 1.66 2.39 


83 ”第 二 个 例子 : E 
息 检索 工具 


根据 维基 百科 ， 信 息 检 索 的 定义 
如 下 。 
“从 信息 资源 集合 中 获取 与 
不 言 息 需求 相交 的 信息 资 


通常 ， 信 息 资 源 是 一 个 文档 集 
合 ， 而 信息 需求 则 是 一 个 概述 了 


需求 的 单词 集合 。 为 了 快速 搜索 

= 们 采用 一 种 名 为 倒 
排 索引 的 数据 结构 。 该 结构 存 
放 了 文档 集合 中 的 所 有 单词 ， 而 
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现 了 该 单词 的 文档 以 及 在 
该 文档 中 的 tfxidf 属性 。 这 上 

文档 都 按照 tfxidf 属性 
行 排 序 。 例 如 ， 该 文件 中 的 一 行 


Th mw 
gan 
HE 
= o 
= 
le 


velankanni:4,18005302.txt:10.1 
3,20681361.txt:10.13,45672176. 
txt:10 

13,6592085.txt:10.13 


这 一 行 包 含 了 单词 velankanni， 
它 的 DF 值 为 4。 它 在 文档 
18005302.txt 中 出現 日 tfxidf 
(810.13, #£20681361.txt 4 
出 现 且 tfxidf (4410.13, Æ 
45672176.txt 文 档 中 出 现 
tfxidf 值 为 10.13， 在 
6592085.txt 文 档 中 出 现 且 
tfxidf 值 也 为 10.13。 


本 章 将 使 用 流 API 来 实现 不 同 版 
本 的 搜索 工具 ， 并 且 获 了 到 有 关 倒 
排 索引 的 信息 。 
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面 提 到 的 ， 


前 
汇总 操作 应 于 流 的 元 素 以 


约 简 操 


E 
Y 


ds: 


nn 


E 
il o 


个 单独 


的 汇总 结果 
可 以 与 流 的 元 素 类 型 


J 相同 ， 


个 数值 流 的 和 
reduce() 操作 的 一 个 简单 


o 该 结 


i sa 


>] 
pq! 


流 API 提 供 了 reduce( ) 方法 来 


实现 约 简 操 作 。 该 方法 有 下 述 三 


个 版 本 。 


= reduce(accumulator) 
: 该 版 本 将 accumulator 


函数 应 用 于 流 的 所 有 


元 素 。 


在 这 种 情况 下 没有 初始 值 。 


它 返 回 一 个 含有 


accumulator 


函数 最 终结 
果 的 0ptiona1 対象 , 


或 者 


当 该 流 为 空 时 返回 一 个 空 的 


Optional 対象 


accumulator 函数 必须 是 
一 个 associative KU, 


它 实现 了 
BinaryOpera 


o 


tor & 


PAS SEB DIA 


的 部 分 结果 。 


reduce(identity,accu 


也 可 以 是 之 前 调用 
accumulator 函数 所 返回 


LA > 


MUTATO): 


accumulator 
值 。 也 就 是 说 ， 


accumulator 


a RAG 
流 介 的 元素 美 型 相同 時 
采用 该 版 本 。 标 识 值 必须 为 
函数 的 标识 


ZH 


SRAN 


如 果 将 


Ex UML A 


回 同样 的 值 V : 


accumulator 


标识 值 和 任意 值 V 


accumulator 


MER, MA 


u 该 值 作为 返回 


另 一 版 本 中 一 样 ， 


RR a 
。 DAR 


(identity 
,V)=V < A AE 
函数 的 第 一 
【 没 有 元 素 , 

值 。 正 如 在 


accumulator 必须 是 一 个 
实现 Binary0perator 接 


reduce(iden 
accumulator, 
combiner ) : 


tity, 


Hassociative 函数 ・ 


u RAH 


MT 


与 流 的 元 素 为 不 [ 司 类 型 
必须 使 用 该 版 本 。 标 识 


一 二 | 


识 。 也 就 是 说 ， 


須 是 combiner 函数 的 


HN 


値 必 
标 


combiner(identity, v) 


=v IH 
数 必须 与 
数 兼 容 , 


的 combiner E 
accumulator EX 


Al 


combiner (u, accumulat 


or 


(identity,v))=accumu 
lator(u,v) ° 


accumulator 函数 采用 局 


部 结果 和 


E 


流 的 下 一 人 元 素 生 


成 男 一 个 局 


combiner 函数 采用 两 个 局 
部 结果 来 生成 另 一 个 局 部 结 


果 o 这 两 


associative KA, (HH 


在 这 种 情 


可 部 结果 


个 函数 必须 均 是 


DEP, 


accumulator Have 
BiFunction 接口 的 实 
现 ， 而 combiner 函数 是 
BinaryOperator 接口 的 


实现 。 


reduce() 方法 有 一 个 局 限 。 如 


人 
法 来 生成 一 个 


T] 正如 流 API 的 文档 中 
说 明 的 ，accumulator EH 


HIE, 该 男 数 必须 返回 单个 
。 你 不 应 该 使 用 reduce( ) 方 


Collection 对 
杂 对 象 。 首 要 问题 


如 果 你 的 accumulator ER 


A BA tS 


ES 

在 于 

所 说 

in 个 元 素 都 会 返回 一 个 新 
数 处 

理 一 

集合 


问题 是 ， 


如果 米 用 井 行 流 , # 
所 有 的 线程 都 要 共享 标识 值 。 


如 有 果 该 值 是 


一 个 Collection ， 那 么 所 有 
的 线程 都 将 作用 于 相同 的 


Collection 


悖 于 reduce( ) 操作 的 初 表 了 * 
此 外 , combiner( ) 方法 总 是 


接收 两 个 相同 


Collection 


> 

时 
4 
E 
al 
yor 
= 


之 上 。 这 样 就 有 


的 Co11ection 


(所 有 的 线程 仅 作 用 于 一 个 


之 上 ) 作为 参 


数 ， 这 也 有 悖 于 reduce( ) 操作 


的 初衷 。 


如 果 要 实现 一 个 可 生成 


Collection E 


或 复杂 对 象 的 约 


简 操 作 ， 有 如 下 两 个 供 选 方案 。 


= 使用 co11ect( ) 方法 应 用 


可変 釣 筒 


操作 。 第 9 章 将 详 


2 介绍 如 何在 个 司 的 场景 下 


| T 
EO FE, 以 便 使 
所 需 值 填充 Collection 


本 例 将 使 用 reduce( ) 方法 来 获 
取 有 关 倒 排 索引 的 信息 ， 使 用 
forEach() 方法 将 该 索引 约 简 
成 与 某 一 查询 相关 的 文档 列表 * 


8.3.2 ”第 一 种 方式 : 全 文档 
查询 


在 第 一 种 方式 中 ， 将 用 到 与 某 一 
单词 相关 的 所 有 文档 。 该 搜索 过 
程 的 实现 步骤 如 下 。 


AER 选取 与 查 询 
单词 相对 应 的 行 
a 将 所 有 的 文档 列表 组 合成 
个 列表 。 如 果 一 个 文档 与 
个 或 者 多 个 单词 相关 ， 那 
将 在 该 文档 中 出 现 的 这 些 
词 的 tfxidf 值 相 加 ， 得 到 
该 文档 最 终 的 tfxidf 值 。 
如 果 一 个 文档 仅 与 一 个 单词 
相关 ， 那 么 该 单词 的 
tfxidf 值 就 是 该 文档 的 最 
终 tfxidf (É ° 
= 使 用 文档 的 tfxidf 值 自 高 
到 低 进 行 排序 。 

= 将 tfxidf 值 排名 前 100 的 

文档 展现 给 用 户 。 


这 一 版 本 已 经 在 
ConcurrentSearch 类 的 
basicSearch( ) 方法 中 实现 。 
该 方法 的 源 代码 如 下 所 示 : 


Se +k 


public static void 
basicSearch(String query[]) 
throws IOException { 


Path path = 
Paths.get("index", 
"invertedIndex.txt"); 

HashSet<String> set = new 
HashSet<> 
(Arrays.asList(query)); 

QueryResult results = new 
QueryResult (new 
ConcurrentHashMap<>()); 


try (Stream<String> 


invertedIndex = 
Files.1ines(path) ) { 


invertedIndex.parallel().filte 


r(line -> set 


.contains(Utils.getword(line)) 
) 


.FlatMap(ConcurrentSearch: :bas 
icMapper) 


.forEach(results: :append); 
results.getAsList().stream().s 
orted().limit(100) 
.forEach(System.out::println); 
System.out.println("Basic 


Search Ok"); 


} 


我 们 接收 一 个 含有 查询 单 词 的 字 
符 串 对 象 数组 。 首 先 ， 将 该 数组 
转换 成 一 个 集合 。 然 后， 使 用 
个 try-with-resources 流 处 
理 invertedIndex.txt 文 件 的 各 行 
正 是 该 文件 存放 了 倒 排 索引 。 
于 采用 了 try-with- 
resources 流 ， 因 此 不 需要 担 
心 文件 的 打开 和 关闭 。 对 该 流 的 
聚合 操作 将 会 生成 一 个 含有 相关 
文档 的 QueryResult 对 象 。 可 
以 使 用 下 述 方 法 获取 该 列表 。 


= parallel(): 首先 ， 获 
取 一 个 并 行 流 以 提高 搜索 过 
程 的 性 能 。 
= filter() : 选取 将 集合 中 
词 与 查询 中 单词 相关 联 的 
行 。Utils.getword() 
方法 将 获取 该 行 的 单词 。 
= flatMap(): 将 字符 串 流 
ES 每 个 字 符 串 都 是 倒 排 
索引 中 的 一 行 ) 转换 成 一 个 
anne 
Token 対象 包含 本 文件 中 
一 个 单词 的 tfxidf (E 対 
于 每 一 行 ， 生 成 的 Token 
对 象 数 与 包含 该 单词 的 文件 
数 相同 
= forEach( ) : 使 用 该 类 的 
add() 方法 添加 每 个 
Token 对 象 ， 进 而 生成 
QueryResult 对 象 。 


一 旦 创建 了 QueryResult a 
象 ， 则 要 使 用 以 下 方法 创建 
个 流 ， 以 便 获 得 最 终结 果 列 


= getAsList(): 
QueryResult 対象 返 回 一 
个 含有 相关 文档 的 列表 。 

= stream( ) : 用 于 创建 一 个 
处 理 该 列表 的 流 。 

= sorted(): 用 于 按照 文档 
id Rd 


E 


= limit(): 用 于 获得 前 100 
个 结果 。 

= forEach(): 用 于 处 理 
100 个 结 将 信息 输出 
到 屏幕 。 


下 面 详细 介绍 一 下 在 本 例 中 用 到 
的 辅助 类 和 方法 。 


a. basicMapper () 方法 


该 方法 将 一 个 字符 串 流 转换 
成 一 个 Token 对 象 流 。 稍 
后 将 详细 介绍 ，Token 中 
存放 文档 中 一 个 单词 的 

tfxidf 值 
个 字符 串 ( 倒 排 索引 中 的 一 
17) 。 它 将 一 行 分 割 成 若干 
个 Token， 并 且 生 成 与 单词 
所 在 文档 数 相 同 的 Token 

对 象 。 该 方法 在 
ConcurrentSearch 类 中 


实现 ， 其 源 代 码 如 下 : 


N 
过 
AE 
a 


public static 
Stream<Token> 
basicMapper(String input) 
{ 


ConcurrentLinkedDeque<Tok 
en> list = new 
ConcurrentLinkedDeque(); 
String word = 
utils.getword(input); 


Arrays.stream(input.split 
(",")).skip(1).parallel() 

.forEach(token -> 
list.add(new Token(word, 
token))); 


return list.stream(); 


To 


首先 ， 创 建 一 个 
ConcurrentLinkedDequ 
e 对 象 来 存储 Token 対象 
然后 ， 使 用 split ( ) 方法 
分 割 字符 串 ， 并 且 使 用 
Arrays 美的 stream( ) 方 
法 生成 流 ・ 跳 辻 第 一 人 元素 
(其 中 包含 单词 的 信息 ) , 
并 且 以 并 行 方式 处 理 剩 下 的 
Token。 对 于 每 个 元 素 ， 均 
创建 一 个 新 的 Token 対象 

将 该 单词 和 具有 
file:tfxidf 格式 的 

Token 传 递 给 构造 画 数 ) , 
并 且 将 其 添加 到 该 流 。 最 
ja, 使用 
ConcurrenLinkedDeque 
対象 的 stream( ) 方法 返回 


ュー ya 
个 流 。 


. Token 类 


An, 该 类 存储 了 文档 

中 某 一 单词 的 tfxidf 值 。 
了 这样， 该 类 束 有 三 个 属性 用 
于 存放 这 些 信息 ， 如 下 所 
IR: 


TF 


public class Token { 


private final String 
word; 

private final double 
tfxidf; 

private final String 
file; 


PE RUA RAE o 
第 一 个 参数 中 含有 该 单词 ， 
而 第 二 个 参数 含有 文件 和 以 
file:tfxidf 格式 出 现 的 
tfxidf 属性 ， 所 以 要 按照 
如 下 代码 进行 处 理 。 


public Token(String word, 

String token) { 
this.word=word; 
String[] 

parts=token.split(":"); 
this. file=parts[0]; 


this.tfxidf=Double.parseD 
ouble(parts[1]); 
} 


最 后 ， 增 加 了 获取 (而 不 是 
设置 ) 这 三 个 属性 值 的 方 
法 ， 以 及 一 个 将 对 象 转换 成 
字符 串 的 方法 ， 如 下 所 示 : 


@Override 
public String toString() 


{ 
return 
word+":"+file+":"+tfxidf; 


y. QueryResult & 


该 类 存放 了 与 某 个 查询 相关 

列表 。 从 内 部 来 看 
该 类 使 用 一 个 Map 来 存 放 相 
关 文 档 信 息 。 其 键 为 文档 的 
文件 名 ， 其 值 为 一 个 
Document 对 象 ， 其 中 包含 
了 文件 名 和 该 文档 相对 于 该 
查询 的 tfxidf 值 总 和 ， 如 
下 所 示 : 


ge 
dai 
E [fe 


public class QueryResult 


private Map<String, 
Document> results; 


GERARD BEA AS 
现 将 用 到 的 Map 接口 。 在 并 
发 版 本 中 使 用 
ConcurrentHashMap , 
在 串 行 版本 中 使用 
HashMap + 


public 

QueryResult (Map<String, 

Document> results) { 
this.results=results; 


该 类 包含 了 append 方法 ， 
它 将 一 个 Token 插 入 Map， 
如 下 所 示 : 


public void append(Token 
token) { 


results.computelfAbsent(t 
oken.getFile(), s -> new 
Document (s)).addTfxidf(to 
ken.getTfxidf()); 

} 


没有 与 文件 相关 的 
cument 对 象 ， 那 么 使 用 
mputeIfAbsent() 方 
创建 一 个 新 的 Document 
寺 象 ， 如果 Document 対象 
存在， 该 方法 会 获取 相 
的 Document 对 象 ， 并 且 
HaddTfxidf( ) 方法 将 
ken 的 tfxidf 值 加 到 文 
的 总 tfxidf 值 。 


后 ， 还 引入 了 一 个 方法 以 
取 Map， 作 为 一 个 列表 ， 
下 所 示 : 


N£O DX 
room 


A 
II 


E 加 es 


St gi 


— 
II 


public List<Document> 
getAsList() { 

return new ArrayList<> 
(results.values()); 


} 


Document 类 将 文件 名 以 字 
符 串 形 式 保存 ， 将 总 
tfxidf 值 以 
DoubleAdder 形式 保存 ° 
该 类 是 Java 8 的 一 个 新 特 

性 ， 可 以 从 不 同 线程 汇总 计 
变量 的 值 ， 而 无 须 担 心 同 
步 问 题 。 它 实现 了 
Comparable 接口 来 按照 
文档 的 tfxidf 值 对 其 进行 
排序 ， 这 样 tfxidf 值 最 高 
的 文档 就 会 排 到 第 一 位 。 其 
源 代码 非常 简单 ， 此 处 不 再 


yan 
给 出 dd 


8.3.3 ”第 二 种 方式 : 约 简 的 
文档 查询 


第 


方法 是 为 每 个 单词 和 文件 


创建 一 个 新 的 Token 对 象 。 注 


些 常见 词 (例如 the ) 


TOY 5 


会 关联 大 量 的 文档 ， 但 是 其 中 的 
大 多数 tfxidf 值 都 很 低 。 我 们 
修改 了 自己 的 映射 器 方法 ， 对 于 
每 个 单词 仅 考 虑 与 之 相关 的 100 

个 文件 ， 这 样 生 成 的 Token 对 

象 数 量 就 比较 小 了 。 


我 们 在 ConcurrentSearch 类 
的 reducedSearch( ) 方法 中 
实现 了 该 版 本 。 该 方法 与 
basicSearch() 方法 非常 类 
似 ， 它 仅仅 改变 了 生成 
QueryResult 对 每 的 流 操作 ， 
如 下 所 示 : 


invertedIndex.parallel().filte 
r(line -> set 


.contains(Utils.getword(line)) 
. flatMap(ConcurrentSearch: : lim 
itedMapper ) 


.forEach(results: :append); 


現在 , 使用 1imitedMapper( ) 
方法 作为 flatMap( ) 方法 中 的 
函数 。 


1imitedMapper( ) 方法 


该 方法 与 basicMapper( ) 方法 
类 似 ， 但 是 如 前 所 述 ， 仅 考虑 与 
每 个 单词 相关 的 前 100 个 文档 
对 为 文档 均 按照 其 tifxidf 值 
进行 排序 ， 所 以 采用 该 词 重要 程 
度 较 高 的 前 100 个 文档 ， 如 下 所 


IN: 


o 


public static Stream<Token> 
limitedMapper(String input) { 
ConcurrentLinkedDeque<Token> 
list = new 
ConcurrentLinkedDeque(); 
String word = 
utils.getword(input); 


Arrays.stream(input.split(",") 
).skip(1).limit(100).parallel( 
).forEach(token 
-> 

list.add(new Token(word, 
token)); 


, 


return list.stream(); 


它 和 basicMapper( ) 方法 唯一 
的 区 别 在 于 对 limit(160) 的 
j， 这 将 选取 流 的 前 100 个 元 


834 第 三 种 方式 : 生成 一 
个 含有 结果 的 HTML 文件 


使 用 Web 搜 索引 擎 (例如 
Google) 作为 搜索 工具 进行 搜索 
时 ， 它 会 返回 搜索 的 结果 (RE 
要 的 10 个 结果 ) ， 而 且 每 个 结果 
都 显示 了 文档 的 标题 和 出 现 所 搜 
索 单 词 的 文档 片段 。 


io 
个 名 为 docs 的 文件 夹 中 。 


第 三 种 方法 在 
ConcurrentSearch 类 的 
htm1Search( ) 方法 中 实现 。 
该 方法 的 第 一 部 分 与 
reducedSearch() 方法 相 
同 ， 它 构造 了 含有 100 个 结果 的 
QueryResult 对 象 。 


public static void 
htm1Search(String query[], 
String fileName) throws 


IOException { 

Path path = 
Paths.get("index", 
"invertedIndex.txt"); 

HashSet<String> set = new 
HashSet<> 
(Arrays.asList(query)); 

QueryResult results = new 
QueryResult (new 
ConcurrentHashMap<>()); 


try (Stream<String> 
invertedIndex = 
Files.1ines(path) ) て 


invertedIndex.parallel().filte 
r(line -> set 


.contains(Utils.getword(line)) 
) 


.flatMap(ConcurrentSearch::lim 
itedMapper) 


.forEach(results: :append); 


然后 ， 创 建文 件 并 写 入 输出 结果 
和 HTML 头 。 


path = Paths.get("output", 
fileName + "_results.html"); 
try (BufferedWriter filewriter 


Files.newBufferedwriter (path, 
StandardOpenOption.CREATE)) { 


filewriter.write("<HTML>"); 
filewriter.write("<HEAD>"); 
filewriter.write("<TITLE>"); 
filewriter.write("Search 
Results with Streams"); 
filewriter.write(" 
</TITLE>"); 
filewriter.write("</HEAD>"); 
filewriter.write("<BODY>"); 
filewriter.newLine(); 


然后 ， 引 入 在 HTML 文 件 中 生成 
结果 的 流 。 


results.getAsList().stream().s 
orted().limit(100).map(new 
ContentMapper (query)).forEach( 
l1 -> { 
try { 
filewriter.write(1); 
filewriter.newLine(); 
} catch (IOException e) { 
e.printStackTrace(); 


} 
y; 


filewriter.write("</BODY>"); 
filewriter.write("</HTML>"); 


我 们 用 到 了 以 下 方法 。 


= getAsList(): 用 于 获取 
与 查询 相关 的 文档 列表 。 

= stream(): 用 于 生成 一 个 
顺序 流 。 无 法 并 行 化 该 流 。 
如 果 试 图 这 样 做 ， 最 终 文件 


中 的 结果 则 不 会 按照 文档 的 
tfxidf 值 排序 。 
sorted(): 用 于 按照 
tfxidf 属性 对 结果 排序 。 
map(): 使 用 
ContentMapper 类 将 每 个 
结果 对 应 的 Result 对 象 转 
换 成 为 一 个 含有 HTML 代 码 
NH, ASSETS RHE? 
介绍 该 类 。 

= forEach( ) : 将 map() 方 
法 返回 的 String 对 象 输出 
到 文件 。 Stream 対象 的 方 
法 不 能 抛 出 校 验 异常 ， 因 此 
要 使 用 一 个 try.. .catch 
代码 块 抛 出 异常 。 


ContentMapper 类 。 
ContentMapper 类 


ContentMapper 类 是 
Function 接口 的 一 个 实现 ， 它 
将 一 个 Result X 对 象 转换 成 ”个 
HTML 代 码 块 ， 其 中 含有 文档 标 
题 以 及 含有 查询 中 一 个 或 多 个 单 
词 的 三 行文 档 片段 。 

该 类 使 用 一 个 内 部 属性 来 存放 查 
询 ， 而 且 实现 了 一 个 构造 函数 来 
初始 化 该 属性 ， 如 下 所 示 : 


public class ContentMapper 
implements Function<Document, 
String> { 

private String query[]; 


public ContentMapper (String 
query[]) { 
this.query = query; 
} 


Hr 


该 文档 的 标题 存放 在 文件 的 第 一 
行 中 。 使 用 try-with- 

resources 指令 和 File 类 的 
1ines( ) 方法 ， 创 建 含 有 该 文 
件 各 行内 容 的 String 対象 流 , 
且 使 用 findFirst( ) 方法 以 
字符 串 形式 获取 第 一 行 。 


public String apply(Document 
d) { 

String result = ""; 

try (Stream<String> content 


Files.lines(Paths.get("docs",d 


.getDocumentName()))) { 
result = "<h2>" + 
d.getDocumentName() + ": "+ 


content.findFirst().get() + ": 
LU + 
d.getTfxidf() + " 
</h2>"; 
} catch (IOException e) { 
e.printStackTrace(); 
throw new 
UncheckedI0Exception(e); 
} 


然后 ， 采 用 一 种 类 似 结构 ， 不 过 
在 本 例 中 ， 我 们 使 用 filter() 
方法 获取 那些 仅 包 含 查询 中 一 个 
或 多 个 单词 的 行 ， 使 用 
limit( ) 方法 选取 其 的 三 

行 MRS, 使用 map( ) 方法 为 

每 个 段落 添加 HTML 标 记 (<p> 
) ， 并 使 用 reduce( ) 方法 完成 
含有 选 定 行 的 HTML 代 码 。 


try (Stream<String> content 
= Files.lines(Paths.get 
("docs", 


d.getDocumentName()))) { 
result += content .filter(1 
-> Arrays.stream(query) 
.anyMatch 
(1.toLowerCase( ) : : conta1ns ) ) 


.1imit(3) .map(1 -> "<p>"+1+" 
</p>") 


.reduce("",String::concat); 
return result; 

} catch (IOException e) { 
e.printStackTrace(); 
throw new 

UncheckedI0Exception(e); 


} 
} 


835 ”第 四 种 方式 ， 预 先 载 
入 倒 排 索引 


行 执行 时 ， 前 三 种 解决 方案 会 
存在 问题 。 如 前 所 述 ， 并 行 流 是 
Java 并 发 API 中 的 公共 
Fork/Join 池 执行 的 。 在 第 7 章 
1， 我 们 了 解 了 不 应 该 在 任务 


VO 操作 来 读 取 或 写 入 数 


Em 
w. Na = 
= 
je 
SH 
E 
IH 
SS 
Sr 
N 
z 
ry 
= 


;从 该 数据 结构 中 创建 流 。 显 


pol 
4| 
—. 
E 
Y 
ul 
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> 
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+ UT 
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= 
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1 而 这 需要 消耗 大 量 的 内 存 。 
第 四 种 方式 在 


ConcurrentSearch 类 的 
preloadSearch() 方法 中 仿 
现 。 该 方法 接收 以 个 字符 BRZ 
组 形式 存放 的 查询 和 一 个 带 有 倒 
排 索 引 数据 的 
ConcurrentInvertedIndex 
wa. 
容 ) 的 对 象 作 为 参数 。 这 一 版 本 
的 源 代码 如 下 : 


public static void 
preloadSearch(String[] query, 


ConcurrentInvertedIndex 
invertedIndex) { 


HashSet<String> set = new 
HashSet<> 
(Arrays.asList(query)); 

QueryResult results = new 
QueryResult (new 
ConcurrentHashMap<>()); 


invertedIndex.getIndex().paral 
lelStream() 

.filter(token - 
> 
set.contains(token.getWord())) 


.forEach(results: :append); 


results.getAsList().stream().s 
orted().limit(100) 

. forEach(document 
-> 
System.out.printin(document)); 


System.out.printin("Preload 
Search Ok."); 


ConcurrentInvertedIndex 
EX HList<Token> o 


文件 中 读 取 的 Token 対象 o 


类 有 两 个 方 MICO DR 


E, 即 get( ) 和 set( ) 方法 。 


与 在 其 他 方式 中 一 样 ， 我 们 使 用 


A 


个 流 ， 第 一 个 用 于 获取 
esult 对 象 的 


ConcurrentLinkedDeque , 


~ 


! 合 有 整个 结果 列表 ， 


版 本 相 比 ， 第 二 个 流 并 没有 改 
变 ， 但 是 第 一 个 流 发 生 了 变化 。 
在 该 流 中 使 用 了 下 述 方 法 。 


在 控制 台 输 出 结果 。 与 其 他 


getIndex(): 首先 ， 获 
取 Token 对 象 列表 。 

para11e1Stream( ) : { 
次 ， 创 建 一 个 并 行 流 来 处 理 
该 列表 的 全 部 元 素 。 
a filter(): 选择 与 查询 中 
单词 相关 的 Token 。 
forEach( ) : 对 Token 列 
表 进 行 处 理 ， 使 用 
append() 方法 将 它们 添加 
到 QueryResult 対象 中 


y 


ConcurrentFileLoader & 


ConcurrentFileLoader 类 


将 


内 


含有 倒 排 索引 信息 的 


invertedIndex.txt 文 件 内 容 加 载 到 


存 。 它 提供 了 一 个 名 为 


load() 的 静态 方法 ， 该 方法 接 
UA | 的 文件 路 径 作为 
参数 ， 返 回 一 个 

ConcurrentInvertedIndex 


对 象 。 代 码 如 下 : 


in 
Co 
Co 


re 
Co 


public class 
ConcurrentFileLoader { 


ConcurrentInvertedIndex 
load(Path path) throws 
IOException 


public 


ConcurrentInvertedIndex 
vertedIndex = new 
ncurrentInvertedIndex(); 


ncurrentLinkedDeque<Token> 
sults=new 
ncurrentLinkedDeque<>(); 


使用 try-with-resources 结 
构 打 开 文 件 并 且 创 建 一 个 流 来 处 
理 所 有 行 。 


try (Stream<String> 
fileStream = 
Files.lines(path)) { 


fileStream.parallel().flatMap( 
ConcurrentSearch: :limitedMappe 
r) 


.forEach(results: :add); 
invertedIndex.setIndex(new 


ArrayList<>(results)); 
return invertedIndex; 


在 该 流 中 使 用 了 下 述 方 法 。 


= parallel(): 将 该 流转 
换 成 一 个 并 行 流 。 

= flatMap(): 使用 
ConcurrentSearch 类 的 
limitedMapper() 方法 
将 行 转换 成 一 个 Token 对 

= forEach(): 处 理 Token 
対象 列表 , 使用 add( ) 方 


法 将 它们 添加 到 
ConcurrentLinkedDequ 
e 対象 中 * 

最 后 ， 将 


ConcurrentLinkedDeque 对 
象 转换 成 ArrayList ， 并 且 在 
InvertedIndex 对 象 中 使 用 
setIndex() 方法 对 其 进行 设 
Ba 


o 


8.3.6 ”第 五 种 方式 : 使 用 我 
们 的 执行 器 


为 了 更 加 深入 地 理解 本 例 ， 我 们 
还 将 测试 另 一 个 并 发 版 本 。 正 如 
本 章 开 头 提 到 的 ， 并 行 流 使 用 

Java 8 引 入 的 公共 Fork/Join 池 ° 
然而 ， 我 们 可 以 借助 一 个 技巧 来 
使 用 自己 的 池 。 如 果 将 自己 的 方 
法 作为 ForkwJoin 池 的 一 个 任务 ， 


那么 该 流 的 所 有 操作 都 会 在 同一 
Fork/Join 池 中 执行 。 为 测试 该 功 
能 ， 我 们 在 
ConcurrentSearch 类 中 增加 
了 executorSearch( ) 方法 。 
该 方法 接收 以 字符 串 对 象 数组 表 
示 的 查询 作为 参数 ， 接 收 
InvertedIndex 对 象 和 一 个 
ForkJoinPool 对 象 。 该 方法 
的 源 代码 如 下 : 


public static void 
executorSearch(String[] query, 

ConcurrentInvertedIndex 
invertedIndex, ForkJoinPool 
pool) { 

HashSet<String> set = new 
HashSet<> 
(Arrays.asList(query)); 

QueryResult results = new 
QueryResult (new 
ConcurrentHashMap<>()); 


pool.submit(() -> て 


invertedIndex.getIndex().paral 
lelStream() 

.filter(token 
-> 
set.contains(token.getWord())) 


.forEach(results: :append); 


results.getAsList().stream().s 
orted().limit(100) 


.ForEach(document - 
> 


System.out.printin(document)); 


3) .join(); 


System.out.printin("Executor 
Search Ok."); 


} 


たっ: 


执行 该 方法 的 内 容 ， 其 中 含有 到 
條 流 ・ 使用 submit( ) 方法 将 
方法 作为 Fork/Join 池 中 的 一 个 人 
务 ， 并 且 使 用 join( ) 方法 等 待 
其 执行 “É ° 


837 ”从 倒 排 索引 获取 数 
据 : ConcurrentData 类 


Fix 


我 们 还 实现 了 一 些 方法 来 获取 有 
关 倒 排 索引 的 信息 ， 这 用 到 了 
ConcurrentData 类 中 的 


reduce() 方法 。 


8.3.8 ”获取 文件 中 的 单词 数 


第 一 个 方法 用 于 计算 文件 中 的 单 
词 数 。 正 如 在 本 章 前 面 提 到 的 ， 
倒 排 索引 存储 了 出 现 单词 的 文 
件 。 如 果 想 知道 文件 中 出 现 的 单 
词 ， 必 须 处 理 所 有 的 倒 排 索引 。 

ail 9 两 个 版 本 。 


etWordsInFile1() 方法 
实现 的 。 它 接收 文件 名 和 
InvertedIndex 对 象 作 为 参 
数 ， 如 下 所 示 : 


public static void 
getWordsInFile1(String 
fileName, 
ConcurrentInvertedIndex 
index) { 

long value = 
index.getIndex().parallelStrea 
m() 


.filter(token -> fileName 


.equals(token.getFile())).coun 

t(); 
System.out.printin("words in 

File "+fileName+": "+value); 


} 


本 例 使 HgetTndex( ) 方法 获 
取 Token 对 象 列 表 ， 并 且 使 用 
parallelStream() 方法 创建 
一 个 并 行 流 。 然 后 ， 使 用 
filter() 方法 筛选 与 该 文件 相 
关 的 Token。 最 后 ， 使 用 
count () 方法 计算 与 该 文件 相 


关 的 单词 数 。 


我 们 还 实现 了 该 方法 的 另 一 个 版 

更 用 reduce( ) 方法 替代 
count) 方 法 , 即 
getWordsInFile2() 方法 ， 
如 下 所 示 : 


public static void 
getwordsInFile2(String 
fileName, 
ConcurrentInvertedIndex 
index) { 


long value = 


index.getIndex().parallelStrea 
m() 


.filter(token -> 


fileName.equals(token.getFile( 
))) 


.mapToLong(token -> 

1).reduce(®, Long: :SUm ) 
System.out.printin("words in 

File "+fileName+": "+value); 


} 


操作 的 起 始 顺序 与 前 一 个 方法 相 
同 。 获 取 含有 文件 中 单词 的 
Token 对 象 流 时 ， 我 们 使 用 
mapToInt() 方法 将 该 流转 换 
成 一 个 数值 为 1 的 流 ， 然 后 使 用 
reduce() 方法 将 所 有 的 数值 1 
相 加 。 


8.3.9 ”获取 文件 的 平均 
tfxidf 值 


我 们 实现 了 
getaverageTfxidf() 方法 ， 
该 方法 计算 了 文档 集合 中 某 个 文 
件 中 单词 的 平均 tfxidf 值 。 在 
比 使用 reduce( ) 方法 来 展示 它 
是 如 何 运行 的 。 也 可 以 使 用 其 他 
方法 获得 更 好 的 性 能 o 


public static void 
getAverageTfxidf (String 
fileName, 


ConcurrentInvertedIndex index) 


long wordCounter = 
index.getIndex().parallelStrea 
m() 


.filter(token -> 
fileName.equals(token.getFile( 


))) 


.mapToLong(token -> 
1).reduce(®, Long::sum); 


double tfxidf = 
index. getIndex().parallelStrea 
m() 


.filter(token -> 
fileName. equals(token.getFile( 


))) 

.reduce(0d, 
(n,t)-> n+t.getTfxidf(), 
(n1,n2) -> n1+n2); 


System.out.printin("words in 
File "+fileName+": "+ 


(tfxidf/wordCounter)); 


2 META 
InFile2() 方 法 的 
司 。 第 二 个 计算 文件 中 
J 的 tfxidf 总 值 。 我 们 
更 用 AUREL HE 取 含 有 文 件 
的 Token 対象 流 , 然 后 使 
Hreduce 方法 将 所 有 单词 的 
tfxidf 值 相 加 。 我 们 向 
reduce() 方法 传递 下 述 三 个 参 


de 门 使 用 两 个 流 。 第 。 第 一 个 计算 文 
S 


getWord 
JJ H 


| 
É i 


| 
1 


= 0: 该 参数 作为 标识 值 传 
RE 

(n,t) -> 
n+t.getTfxidf(): 1% 
参数 作为 accumulator EX 
数 传 入 。 它 接收 一 个 
double 和 一 Taken 
WR, F 算 该 数值 和 
Token 人 属性 值 的 
和 。 

(n1,n2) -> n1+n2 : 该 
参数 作为 combiner 函数 传 
入 。 它 接收 两 个 数值 并 且 计 
算 它 们 的 和 。 


8.3.10 ”获取 索引 中 的 最 大 
tfxidf 值 和 最 小 tfxidf 


值 


我 们 还 在 maxTfxidf( ) 方法 和 
minTfxidf() 方法 中 使 用 
reduce( ) 方法 来 计算 最 
tfxidf 值 和 最 小 tfxidf (É > 


II 


public static void 
maxTfxidf(ConcurrentInvertedIn 
dex index) { 
Token token = 
index.getIndex().parallelStrea 
m() 


.reduce(new Token("", 
"xxx:0"), (t1, t2) -> { 
if 


i 
(t1.getTfxidf()>t2.getTfxidf() 
JA 

return t1; 


} else { 
return t2; 


} 

H; 
System.out.printin(token.toStr 
ing()); 

} 


该 方法 接收 
ConcurrentInvertedIndex 
作为 参数 。 我 们 使 用 
getIndex() 方法 来 获取 
Token 对 象 列表 。 然 后 ， 使 用 
parallelStream() 方法 在 该 
列表 上 创建 一 个 并 行 流 ， 并 且 使 

Hreduce( ) 方法 获取 具有 最 高 
tfxidf 值 的 Token 対象 在 
列 中 ， 使 用 带 有 两 个 参数 的 
ee 方法 ， 其 中 一 个 参数 
为 标识 值 ， 另 一 个 为 一 个 
accumulator PHAN ° XERIFE 
是 一 个 Token 对 象 。 我 们 并 不 
考虑 该 单词 及 其 文件 名 称 ， 但 是 
将 其 tfxidf 属性 的 值 初 始 化 为 
0。 然 后 ，accumulator 函数 
Zik Token 对 象 作为 参 

。 比较 两 个 对 象 的 tfxidf 全 
性 ， 并 且 返 回 值 较 大 的 那个 对 


o 


qu 


minTfxidf( ) 方法 非常 类 似 ， 
如 下 所 示 : 


public static void 
minTfxidf(ConcurrentInvertedIn 
dex index) { 

Token token = 
index.getIndex().parallelStrea 
m() 


.reduce(new Token("", 
"xxx:1000000"), (t1, t2) -> { 
if (t1.getTfxidf() 
<t2.getTfxidf()) { 
return t1; 
} else { 
return t2; 


} 

y; 
System.out.printin(token.toStr 
ing()); 

} 


对 于 本 例 ， 其 主要 区 别 在 于 对 标 
识 值 的 初始 化 要 采用 非常 高 的 
tfxidf 属性 值 。 


中 


8.3.11 ConcurrentMain 


ES 


为 了 测试 在 以 上 各 节 中 讲述 的 方 
法 ， 我 们 实现 了 
ConcurrentMain 类 ， 该 类 实 
现 了 main( ) 方法 以 启动 测试 > 


在 这 些 测试 中 ， 使 用 了 下 面 三 个 


> 


a 查询 1: 含有 james 和 


bond 两 个 单词 。 
= 查询 2: 含有 gone “with 
> the 和 wind 等 单词 。 


含有 单词 rocky 。 


我 们 用 三 个 版 本 的 搜索 过 程 测试 
上 述 三 个 查询 ， 度 量 每 次 测试 的 
执行 时 间 。 所 有 的 测试 都 含有 类 
似 下 面 的 代码 : 


public class ConcurrentMain { 


public static void 
main(String[] args) { 


String query1[]= 
{"james","bond"}; 
String query2[]= 
{"gone", "with", "the", "wind"}; 
String query3[]={"rocky"}; 


Date start, end; 


bufferResults.append("Version 
1, query 1, concurrent\n"); 
start = new Date(); 


ConcurrentSearch.basicSearch(q 
uery1); 
end = new Date(); 


bufferResults.append("Executio 
n Time: " + (end.getTime() - 


start.getTime()) + "\n"); 


为 从 某 个 文件 将 倒 排 索引 加 载 到 
一 个 InvertedIndex 对 象 ， 可 
以 使 用 下 述 代码 。 


ConcurrentInvertedIndex 
invertedIndex = new 


ConcurrentInvertedIndex(); 
ConcurrentFileLoader loader = 
new ConcurrentFileLoader(); 
invertedIndex = 
loader.load(Paths.get("index", 


"invertedIndex.txt")); 


为 了 创建 用 于 
executorSearch() 方法 的 执 
行 器 ， 可 以 使 用 下 面 的 代码 。 


ForkJoinPool pool = new 
ForkJoinPool(); 


8.3.12 BAM 


我 们 通过 SerialSearch > 
SerialData > 
SerialInvertendIndex ` 
SerialFileLoader 和 
SerialMain 类 实现 了 该 例 的 
串 行 版 。 为 了 实现 该 版 本 ， 我 们 
做 了 如 下 改动 。 


”使 用 顺序 流 奉 代 并 行 流 。 不 
更 用 para11e1( ) 方法 来 
将 流转 换 成 并 行 流 ， 或 者 将 
创建 并 行 流 的 
parallelStream() 方法 
替换 为 stream( ) 方法 ， 进 
而 创建 一 个 顺序 流 。 

= 在 SerialFileLoader 类 
中 ， 使 用 ArrayList 代替 
ConcurrentLinkedDequ 
$ 


8.3.13 ”对 比 两 种 解决 方案 
一 下 已 实现 所 有 方法 的 品行 


AT 
Sr 
5H 
II 
+ 
ai 
TE 
El 
+ 
Ni 
$ 
o 


JMH 框 架 来 执行 它们 ， 该 杠 

尔 在 Java 中 实现 微型 基准 
式 。 使 用 一 个 本 向 基准 测试 的 
:比较 好 的 解决 方案 ， 它 
¿currentTimeMillis() 
法 或 者 nanoTime( ) 方 法度 
[ 间 “。 在 两 种 不 同 的 架构 上 分 
| 执行 这 些 示例 10 次 。 


a 一 台 计 算 机 配置 了 Intel Core 
i5-5300 处 理 器 、Windows 7 
操作 系统 和 16GB 的 RAM ° 
该 处 理 器 有 两 个 核 ， 且 每 个 
核 可 以 执行 两 个 线程 ， 这 样 
就 有 四 个 并 行 线程 。 


JE aE 
o: 

+ 

aN 


aw 
=i 
= 


E 
. 


一 < 


EM Sof RE mi 


En 


= 四 | 


A 


A8-640 处 理 器 
操作 系统 和 8GB 的 


台 计 算 机 配 


该 处 理 器 有 四 个 核 。 


TAMD 
Windows 10 
RAM ° 


对 于 含有 单词 james 和 bond 的 
第 一 个 查询 ， 其 执行 时 间 如 下 
(单位 : EM) < 
Intel 架 构 AMD 架 构 

串 行 版 | 并 发 版 | 串 行 版 | 并 发 | 
1310.845 | 650.83 |3286.336 | 1732. 
aa 1179.955 | 645.184 | 3172.025 | 1521.: 
ae 1457.035 | 785.553 | 3351.34 |2089.: 
預 加 
载 搜 |84.174 |43.716 |152.663 | 104.3¢ 
ES 
AUT 
器 搜 [90.714 |47.865 | 144.375 |111.82 
ES 
对 于 带 有 单词 gone ‘with > 
the 和 wind 的 第 二 个 查询 ， 


N 
o + 


ラー ロー エト EA Eph 
执行 时 间 如 下 (单位 ， 毫秒 

Intel 架 构 AMD 架 构 

串 行 版 | 并 发 版 | 串 行 版 | 并 发 | 

基本 ”| 1425.664 | 853.543 | 3822.322 | 1787: 
BR 
约 简 

1159.872 | 644.429 | 3236.021 | 1540.( 
ER 

oe 1428.503 | 807.955 | 3358.694 | 2330.2 
预 加 

载 搜 |75.803 |49.417 |161.131 |120.31 
索 
AT 

器 捜 |89.737 |44.969 |149.358 | 109.48 
索 


对 于 含有 单词 rocky 的 第 三 个 


要 二 可 


查询 ， 执 行 时 间 如 下 (単位 : E 
秒 ) 。 
Intel 架 构 AMD 架 构 

串 行 版 | 并 发 版 | 串 行 版 | 并 发 | 
1274.524 | 706.979 | 3163.459 | 1446.€ 
约 简 | 165.619 | 767.027 | 3167.887 | 1586.: 
HTML | 1167.504 |677.001 | 3196.033 | 2224.: 
ER 
預 加 
載 捜 174.287 |45.014 |140.17 |101.7z 
索 


81.929 |47.868 [142.389 |107.5( 


E 
XB 


最 后 ， 下 表 为 返回 有 关 倒 排 索引 
言 息 的 各 方法 的 平均 执行 时 间 
(单位 : 毫秒 ) j 


Intel 243 AMI 
enm] HE | pam 
getwordsInFilel |80.112 |37.111 | 121.379 


getWordsInFile2 | 68.627 | 30.371 | 121.452 
getAverageTfxidf | 127.382 | 62.966 | 259.749 


maxTfxidf 31.64 |28.207 | 89.013 
minTfxidf 40.256 |30.228 | 91.784 
可 以 得 出 如 下 结论 。 


。 读 取 倒 排 索引 以 
村 T, HZ 
现 了 更 好 的 性 能 。 


i 获取 相关 文 
E 

・ RASTER A BERS | HOE 
本 
在 
的 
メ 
术 


的 并 发 版 本 


E 
u 
Io 


时 ， 该 算法 的 并 发 版 本 也 
生 各 种 情况 下 表现 出 了 较 好 
于 那些 能 够 返回 倒 排 索 引 


关 信息 的 方法 ， 算 法 的 六 
发 版 本 总 是 具有 更 好 的 性 


最 后 使 用 加 速 比 比较 三 个 查询 的 
行 流 和 顺序 流 处 理 情况 ， 例 
如 ， 对 于 预先 载 入 倒 排 索引 的 
James Bond 查 询 ， 有 如 下 公式 。 


S Tserial 152.663 1.46 
“AMD = = = = 1. 
Teoncurrent 104.304 
Tseri: 84.174 
SIntel = -mi Z= 1.92 


Teoncurrent ー 43.716 u 


最 后 ， 在 第 三 种 方法 中 ， 我 们 生 
成 了 含有 查询 结果 的 HTML 网 
页 。 对 于 带 有 单词 james bond 
的 第 一 个 查询 ， 搜 索 到 的 前 几 个 
结果 如 下 。 


对 于 含有 单词 gone with the 


wind 的 第 二 个 查询 ， 其 搜索 到 


的 


前 儿 个 结果 如 下 。 


询 rocky 搜 
结果 如 下 所 示 。 


索 到 的 前 


8. 


4 


时 一 个 最 终 对 象 。 


REZE, TE 


ae 


vit 


Stream 接口 


数 


应 用 程序 或 
这 些 流 时 ， 


发 应 用 入 
应 该 对 它 


pr 
し 」 


ご Hol 


个 相 


羊 例 中 使 用 ] 


o 第 


fF 例 几乎 使 用 ] 


计算 一 个 大 规 


据 。 使 


má 资源 库 的 Online Roca A 


羊 例 实 现 ] 


不同 


JH 


FE 索引 


an 


2 


， 以 便 获 得 与 查询 


操作 o 


EARLY 


当 。 这 是 信 
常见 的 任务 之 一 。 
Treduce() 方法 作为 流 


解 流 ， 
加 关注 collect( ) 末端 操作 * 


© RE a 


为 此 ， 


A 


SH 


但 是 


第 9 章 


使 用 并 


行 流 处 理 大 规模 


数据 集 : 


MapCollect 模 型 


第 8 章 介绍 了 流 的 


> BA LE 


一 个 元 素 序列 ， 可 以 人 
条 顺序 的 方式 进行 


概念 
以 使 用 并 行 
处 理 。 本 章 将 


继续 学 习 如 何 处 理 流 ， 主 要 涉及 


如 下 主题 。 


. collect () 方法 。 


a 第 一 个 例子 : 


无 索引 条 件 下 


= 第 二 个 例子 : 


推荐 系统 


"第 三 个 例子 : 
共同 联系 人 。 


社交 网 络 中 的 


9.1 使 用 流 收集 数据 


第 8 章 简要 介绍 了 流 。 DE 
一 下 流 最 重要 的 几 E 


ET 
wal 
E 


个 特征 。 


操作 的 输入 ， ° 


流 由 下 述 三 个 要 素 构 成 。 


生成 流 元 素 的 源 。 


操作 ， 不 过 其 中 两 个 操作 更 加 重 


x, EMA E| 更 好 的 灵活 性 和 更 


强 的 能 力 。 在 第 8 章 | 
J 如 何人 Hreduce() 方法 ， 而 
在 本 章 ， 将 学 会 如 何 使 用 


collect() Wik: 下面 
下 该 方法 。 


介绍 


collect ) 方法 


collect() 方法 可 
进行 转换 和 分 组 ， 
EA 


H 


A 
CIA] 


才 流 的 元 素 


ESE 


HSJA 
NES E 
入 元 素 的 数 和 


生成 一 个 含有 
Es 
不同 8 
类 型 ， 


类 型 


9 构 。 你 可 
数据 类 
i OR 


可 


据 类 型 ， 


iJ 


2; 以 及 一 -种 答 
co11ect( ) 方 法 返 


过 程 中 存 
SEU 


Yo 


collect() 方法 有 两 个 版 本 。 


第 一 


参数 。 


Supplier ER : 这 是 一 个 创 
Ese 


个 版 本 接收 下 述 三 


种 画 数 型 


对 象 的 画 


。 如 果 


十 会 被 


行 流 , 1 


AN 


ix, M 


个 


| 新 对 象 g 
umulator HŽ : 


= Acc 

EPUL 
在 
元 素 


o 


1012803 


Combiner ži : 


调 
Amir" 


调用 该 


处 理 输 


个 


结构 


aa 
该 函数 只 


AA, # 
存放 该 


TEN 
居 结 构 


A 


有 在 处 


了 两 
的 元 素 的 输 


し 


的 中 同数 


collect () 
接收 一 个 实 ] 


TÍA 


1 


RRA 


方 法 的 第 
現 Co1 


| 才 会 被 


EE] 


Je 


这 个 版 本 的 collect( ) 方法 用 
种 不 同上 


数据 
AB 


居 类 型 ， 


日 


类 型 : 


及 


于 存放 中 间 元 素 并 返 


来 
A 
终 


口 


o 


lector 接 


HAA 


Ot 


二 个 版 本 


的 対象 人 


> 
小 


可 以 


口 ， 但 是 使 


Collector.of()# 


实现 该 接 


105 


容易 * 


= Supp 


lier : 


该 方法 的 参数 如 


DIFE 


1 间 数 据 类 型 的 对 


A 
J 


法 
A 


SHE 
ccumulator : 


以 处 理 


的 介 


绍 


AJ 


1 


输 


调用 
TAT 


元 素 , 


必要 还 可 对 


该 元 素 进 行 转 


HR, 将 其 存放 在 中 间 数 
据 结 构 中 。 
= Combiner: 调用 该 函数 可 
以 将 两 个 中 间 数 据 结 构 合 
ROT, H 法 参照 前 面 的 介 
« Finisher: 如 果 需 要 进行 最 
终 的 转换 或 者 计算 ， 调 用 该 
函数 可 以 将 中 间 数 据 结构 转 
换 成 最 终 的 数据 结构 。 
= Characteristics : 可以 使用 
这 个 最 后 的 变量 参数 表明 所 
创建 的 收集 器 的 一 些 特征 。 


实际 上 ， 这 两 个 版 本 之 间 存 在 稍 
许 差别 。 带 有 三 个 参数 的 
collect () 方法 接收 的 
CombinerzeBiConsumer , 
必须 将 第 二 个 中 间 结 果 合 并 到 第 

个 中 间 结 果 中 。 而 这 一 版 本 的 
collect() 方法 采用 的 
CombinerxBinaryOperator 
， 而 且 应 该 返回 该 Combiner > K 
此 这 一 版 本 的 Collect 方 法 既 可 上 
选择 将 第 二 个 中 间 结 果 合 并 到 第 
二 个 ， 也 可 以 将 第 一 个 中 间 结果 


」 Finisher 
za, 参 数 都 相同 ・ 在 本 例 中 , 
不 执行 最 终 转换 。 


Java 在 Co11ector 工厂 类 中 提 
供 了 一 些 预 定义 的 收集 器 s HL 
通过 这 些 收 集 器 的 静态 方法 获得 
这 些 收 集 器 。 如 下 是 其 中 的 一 些 
方法 。 


= averagingDouble() > 
averagingInt() 和 
averagingLong() : 
些 方法 返回 一 个 收集 器 ， 能 
够 计算 double 、int 或 者 
long 型 函数 的 算术 平均 


= groupingBy(): 该 方法 
返回 一 个 收集 器 ， 使 你 能 够 
按照 其 对 象 的 某 一 属性 对 流 


E, M 

自 的 対象 列表 ・ 

m groupingByConcurrent 
O: 这 和 前 一 个 方法 相 

, 只 是 有 两 点 不 同 。 第 一 

个 不 同 点 在 于 该 方法 在 并 行 


模式 下 比 qroupingBy( ) 
方法 更 快 ， 但 是 在 顺序 模式 
下 却 更 慢 。 第 二 个 (也 是 最 
重要 的 ) 不 同 点 在 于 
groupingByConcurrent 
O 函数 是 一 个 无 序 的 收集 
器。 不 能 保证 列表 中 项 的 顺 
序 和 在 流 中 的 顺序 相同 。 
男 一 方面 ， 
groupingBy( ) 收集 器 则 
能 够 保证 排序 。 
joining(): WAKE 
一 个 collector 工厂 类 ， 
将 输入 元 素 串 联 为 一 个 字符 
partitioningBy(): 该 
方法 返回 一 个 collector 
工厂 类 ， 基 于 某 个 谓词 的 结 
果 对 输入 元 素 进行 划分 。 
summarizingDouble() 
~ summarizingInt() 和 
summarizingLong() : 
这 些 方法 返回 一 人 1 
Collector 工 ) &, 1% 
输入 元 素 的 汇总 统计 值 。 
toMap(): 该 方法 返回 一 
个 collector 工厂 类 ,使 
尔 可 以 基于 两 个 映射 函数 将 
输入 元 素 转换 为 一 个 Map。 
toConcurrentMaD( ) : 
该 方法 与 前 一 个 类 似 ， 个 在 
发 方式 工作 。 在 不 考虑 
定制 归并 器 的 情况 
toConcurrentMap() A 
是 在 并 行 流 的 情况 下 较 快 。 


we 


Ot 


groupingByConcurrent 
( ) 方 法 样 ， 这 也 是 一 个 
无 序 收集 器 ， 而 toMap() 

则 采用 相遇 时 的 排序 执行 转 


toList( ) : 该 方法 返回 一 
“Collector 工厂 类 , 将 
输入 元 素 存放 到 一 个 列表 


Ho 


toCollection(): 该 方 
法 使 你 能 够 按照 相遇 时 的 排 
序 将 输入 元 素 累 加 到 一 个 新 
的 Collection 工厂 类 

(TreeSet > 
LinkedHashSet 等 ) ° 1% 
方法 接收 一 个 创建 该 
Collection 的 Supp1ier 接 
实现 作为 参数 。 


= maxBy() 和 minBy( ) : 

or [a MAS 
工厂 类 ， 根 据 以 参数 传递 的 
比较 器 产生 最 大 元 素 和 最 小 


= toSet(): 该 方法 返回 一 
个 collector ， 它 将 输入 
元 素 存 放 到 一 个 集 合 。 


9.2 第 一 个 例子 : 无 
pe 


pt 
Es 
dk 


ah, MRS TUE 
一 个 搜索 工具 ， E H 倒 排 宗 引 査 


你 将 看 到 这 样 个 场景 ， 并 
到 Stream API reduce() 方 
法 如 何 能 帮助 你 。 


为 了 实现 该 示例 ， 将 使 用 亚马逊 
联合 采购 网 络 元 数据 的 数据 子 
其 中 包含 EE, a 


品 列表 、 类 别 和 评论 等 。 可 以 在 
SNAP 搜 索 “Amazon product co- 
purchasing network metadata” | 


载 该 数据 集 > 我 们 选取 其 中 的 训 


'。 为 了 便于 数据 处 理 ， 我 信 更 
改 了 其 中 茶 些 字段 的 格式 。 所 有 


字段 都 采用 property:value 


有 一 些 类 是 并 发 版 本 和 串 行 版 本 
共享 的 。 在 此 详细 介绍 下 其 中 


a. Product 类 


Product 类 存放 了 有 关 商 
品 的 信息 。 下 面 给 出 ] 
Product 类 。 


“did: 这 是 商品 的 唯一 


a asin: YEN Et) 


条 准 身份 识别 码 。 


= title: 这 是 商品 的 


的 


分 组 。 该 属性 的 取 值 可 


以 为 Baby Produc 


t 


“Book ‘CD ` DVD 
Music ‘Software 


Sports ‘Toy ` 
Video 或 者 Video 


Games 。 

m Salesrank : 这 表示 
亚马逊 公司 的 销售 排 
名 o 


= similar: 这 是 文件 


= categories: 这 是 
一 个 String 对 象 列 
表 含有 指派 给 该 


~ 


AX, 
商品 的 美 列 


中 所 包含 的 相似 項 的 数 


m reviews: 这 是 一 个 


Review 对 象 列 表 ， 


~ 


中 含有 该 商品 的 评论 


(用 户 和 评分 ) ・ 


该 类 仅 包含 属性 定义 以 及 与 
之 对 应 的 getXXX() 方法 和 


H 


setXXX( ) 方法 ， 因 此 这 里 


不 再 给 出 其 源 代 码 。 


. Review 类 


如 前 所 述 ，Product K& 


“Review 对 象 列表 ， 


! 含 有 用 户 对 商品 的 订 


信息 。 该 类 用 如 下 两 个 属 
存放 了 每 个 评论 的 信息 。 


» user: 进行 评论 的 用 
户 的 内 部 编码 © 

= value: 用 户 对 商品 
的 评分 。 


该 类 仅 包含 属性 定义 以 及 对 


应 的 getXXX( ) 和 


setXXX() 方法 ， 因 此 不 再 


给 出 源 代码 。 
. ProductLoader 类 


ProductLoader Ef 


FÜR 


从 某 个 文件 将 有 关 某 一 商品 


的 信息 加 载 到 Product 对 
象 。 该 类 实现 了 1oad ( ) 方 
法 ， 该 方法 接收 一 个 Path 
対象 (其 中 含有 商品 信息 的 
文件 路 径 ) ， 并 且 返 回 一 个 
Product 对 象 。 其 源 代码 
如 下 : 


public class 
ProductLoader { 
public static Product 
load(Path path) { 
try (BufferedReader 
reader = 
Files.newBufferedReader(p 


ath)) { 

Product product=new 
Product(); 

String 
line=reader.readLine(); 


product.setId(line.split( 
":")[1]); 


line=reader.readLine(); 


product.setAsin(line.spli 


t(":")[1]); 
line=reader.readLine(); 
product.setTitle(line.sub 
string 
(line.indexof(':')+1)); 


line=reader.readLine(); 


product .setGroup(line.spl 
it(":")[1]); 


line=reader.readLine(); 
product.setSalesrank(Long 
.parseLong 
(line.split(":")[1])); 


line=reader.readLine(); 


product.setSimilar(line.s 
plit(":")[1]); 
line=reader.readLine(); 
int 
numItems=Integer.parseInt 
(line.split(":")[1]); 


for (int i=0; 
i<numItems; i++) { 


line=reader.readLine(); 


product .addCategory(line. 
LAN 


line=reader.readLine(); 


numItems=Integer.parseInt 
(line.split(":")[1]); 

for (int i=0; 
i<numItems; i++) { 


line=reader.readLine(); 
String 
tokens[]=line.split(":"); 
Review review=new 
Review(); 


review.setUser(tokens[1]) 


7 


review.setValue(Short.par 
seShort(tokens[2])); 


product .addReview(review) 
i 
} 
return product; 
} catch (IOException 
x) { 
throw newe 


UncheckedIOException(x); 
3 


9.2.2 ”第 一 种 方式 : BAB 


第 一 种 方式 是 接收 一 个 单词 作为 
询 ， 搜 索 所 有 存储 商品 信 
牛 ， 看 看 是 否 在 定义 商品 
字段 中 含有 该 单 ; 
对 哪个 商品 都 这 样 操作 。 这 将 仅 
显示 包含 该 单词 的 文件 名 。 


为 了 实现 该 基本 方式 ， 我 们 实现 


ConcurrentMainBasicSear 
ch, EXMT main() 方 

法 。 首 先 ， 初 始 化 查询 和 存放 所 
有 文件 的 基本 路 径 。 


public class 
ConcurrentMainBasicSearch { 


public static void 
main(String args[]) { 
String query = args[0]; 
Path file = 
Paths.get("data"); 


a! 


Ri m 个 流 来 生成 含有 结 
的 字 符 串 列表 , 如 下 所 示 : 


[Run 


try { 
Date start, end; 


start = new Date(); 


ConcurrentLinkedDeque<String> 
results = Files.walk(file, 


FileVisitOption.FOLLOW LINKS). 
parallel().filter(f -> 


f.toString().endswith(".txt")) 


.collect(ArrayList<String>::ne 
w, 
new 
ConcurrentStringAccumulator 
(query), List::addAll); 
end = new Date(); 


我 们 的 流 包含 下 述 元 素 。 


使 用 Files 类 的 walk( ) 方 
) 流 ， 将 文件 集合 的 基本 
对 象 作为 参数 传递 。 该 方 
有 文件 作为 流 返 回 ， 并 且 
该 路 径 下 的 所 有 目录 。 


(2) As, 使用 para11e1( ) 方 
法 将 该 流转 换 成 一 个 并 发 流 。 


(3) 我 门 仅 对 广 展 名 为 .txt 的 文人 


+ 
BEN 
IV 


E 


RR 内 此 使 用 fi1ter( ) 方 


BM, 
法 对 文件 进行 筛选 。 


(4) 最 后 , 使用 co11ect( ) 方法 
将 Path 对 象 流转 换 为 String 
対象 (含有 文件 名 ) 的 


ConcurrentLinkedDeque + 


我 休 使用 co11ect( ) 方法 的 三 
an 


= Supplier: 使用 ArrayList 
类 的 new RIHMA ENA 
程 创建 一 个 新 的 数据 结构 ， 

以 使 在 放 相 MER o 
Accumulator: 我 们 在 
ConcurrentStri 
mulator 类 中 实现 


的 Accumulator。 稍 后 将 详 


介绍 该 类 。 
Combiner: 使 用 
ConcurrentLinkedDequ 
e 美的 addA11( ) 方法 连接 
两 个 数据 结构 。 在 本 例 中 ， 
会 将 第 二 个 Collection 中 的 


所 有 元 素 添加 到 第 一 个 


ANS 


Collection 中 。 而 第 一 个 
Collection 既 可 用 于 进 


的 合并 ， 也 可 以 作为 最 


ÉS 


Ho 
最 后 ， 在 控制 台 输出 从 流 获 得 的 
结果 。 


System.out.printin("Results 
for Query: "+query); 


System.out.println("*******x*x** 
FR), 


results. forEach(System.out::pr 
intln); 


System.out.printin("Execution 
Time: "+(end.getTime()- 


start.getTime())); 
} catch (IOException e) { 
e.printStackTrace(); 
} 
} 
} 


否 必 须 将 其 名 称 包含 到 结果 列 
表 中 时 ， 都 要 执行 Accumulator 
函数 型 参数 。 为 实现 这 种 功能 ， 
我 们 实现 ] 
ConcurrentstringAccumul 
ator Re THZERKRHIE 


每 当 要 处 理 流 的 一 个 路 径 以 评估 
FE 


ConcurrentStringAccumul 
ator 类 


comeu Ten St MOST HN 
ator IET - DRA EE 
息 的 文件 ， 以 判断 它 是 否 包含 查 
询 中 的 术语 。 它 实现 了 
BiConsumer 接口 ， 这 是 因为 
我 们 要 将 其 用 作 collect() 方 
法 的 一 个 参数 。 使 用 
List<String> 类 和 Path 类 参 
数 化 该 接口 。 


public class 
ConcurrentStringAccumulator 
implements BiConsumer 


<List<String>, Path> { 


它 将 查询 定义 为 一 个 内 部 属性 ， 
该 属性 在 构造 函数 中 被 初始 
， 如 下 所 示 。 


HH 


A 


y 


private String word; 

public 
ConcurrentStringAccumulator 
(String word) { 


this.word=word.toLowerCase(); 


然后 ， 实 现在 BiConsumer 接 
口中 定义 的 accept ) 方法 。 该 
方法 接收 两 个 参数 : 一 个 是 
ConcurrentLinkedDeque<S 
tring> 类 ， 另 一 个 是 Path 


炒 
e 


为 了 加 载 文件 并 且 判 断 它 是 否 包 
含 该 查询 ， 使 用 以 下 的 流 。 


@Override 

public void 
accept(List<String> list, Path 
path) { 


long counter; 


try { 
counter = 


Files.lines(path).map(1 -> 
l.split(":")[1].toLowerCase()) 

.filter(1 -> 
l.contains(word.toLowerCase()) 
).count(); 


我 们 的 流 包含 下 述 元 素 。 


(1) 首先 ， 使 用 Files 类 的 
lines() 方法 加 载 文件 中 的 行 
到 一 个 流 。 文 件 每 一 行 均 参照 
property: value 格式 。 


= 
e 


(2) Hik, 使用 map( ) 方法 获 
值 。 


(3) Aa, 使用 fi1ter( ) 方法 
仅 选 取 那 些 舍 有 竺 搜索 单词 的 


(4) Sa, 使用 count( ) 方法 计 
算 流 中 剰 下 的 元素 数 ・ 


如果 Counter 変 量 的 値 大 干 0, HB 
么 该 文件 包含 查询 术语 ， 如 此 便 
将 该 文件 的 名 称 添 加 到 存放 结果 
的 ConcurrentLinkedDeque 


Ro 


if (counter>0) { 
list.add(path.toString()); 
} catch (Exception e) { 


System.out.println(path); 
e.printStackTrace(); 


923 ”第 二 种 方式 ， 高 级 搜 
索 
基本 搜索 方式 存在 一 些 缺 陶 。 


a 该 方式 在 


z4 
—=1 
U 
El 
ES 
x I} 
x 
mt 


NT 
i, Y A 
称 这 样 的 附加 信息 。 


为 了 解决 这 些 问 题 ， 我 们 将 构造 
一 个 实现 main( ) 方法 的 


类 。 首 先 ， 初 始 化 查询 和 存放 所 
有 文件 的 基础 Path 対象 ° 


public class 
ConcurrentMainSearch { 
public static void 
main(String args[]) { 
String query = args[0]; 
Path file = 
Paths.get("data"); 


Ra, 使用 下面 的 流 来生 成 有 共 
Product 対象 的 


ConcurrentLinkedDeque 


m 
e 


try { 
Date start, end; 
start=new Date(); 
List<Product> results = 
Files.walk(file, 
FileVisitOption 


.FOLLOW_LTNKS ) . para11e1( ) .f11t 
er(f -> f 


.toString().endswith(".txt")) 


.collect(ArrayList<Product>::n 
ew, new 


ConcurrentObjectAccumulator (qu 
ery), 


List: :addA11 ) 


这 个 流 和 在 基 本 方式 5 現 的 流 
有 相同 的 元 素 ， AKER 下 述 两 


H 
de 
点 变化 。 


= 在 co11ect( ) FEF, € 
Accumulator 参 数 中 使用 J 
ConcurrentObjectAccu 
mulator X ° 

= 使用 Product 対象 参 数 化 
ConcurrentLinkedDequ 


eo 


最 后 ， 在 控制 台中 输出 结果 。 但 
是 在 本 例 中 ， 我 们 输出 


的 名 称 。 


System.out.println("Results"); 
System.out.println("*******x*x** 
AAN), 


results.forEach(p -> 
System.out.println(p.getTitle( 
)) ): 


System.out.printin("Execution 
Time: "+(end.getTime()- 


start.getTime())); 


} catch (IOException e) { 
e.printStackTrace(); 


你 可 以 更 改 上 述 代 码 ， 输 出 有 关 
商品 的 其 他 任何 信息 ， 例 如 销售 
排名 或 者 类 别 。 


与 之 前 相 比 ， 这 一 实现 最 重要 的 


ConcurrentObjectAccumul 
ator 类 。 下 面 详细 介绍 一 下 该 


类 。 


ConcurrentObjectAccumul 
ator 类 


ConcurrentObjectAccumul 
ator 类 实现 了 BiConsumer fé 
口 ， 该 接口 
ConcurrentLinkedDeque<P 
roduct> 类 和 Path 类 参数 化 ， 
这 是 因为 我 们 希望 在 
collect() 方法 中 使 用 它 。 

类 定义 了 名 为 word 的 内 部 属性 
来 存放 查询 中 的 术语 。 该 属 物 

该 类 的 构造 函数 中 初始 化 。 


public class 
ConcurrentObjectAccumulator 
implements BiConsumer 


<List<Product>, Path> { 
private String word; 


public 
ConcurrentObjectAccumulator (St 
ring word) { 
this.word = word; 


} 


y 


accept() 方 法 ( 在 
BiConsumer 接口 中 定义 ) 的 
实现 非常 简单 。 


@Override 

public void 
accept(List<Product> list, 
Path path) { 


Product 
product=ProductLoader.load(pat 
h); 


if 
(product.getTitle().toLowerCas 
e().contains(word.toLowerCase( 
DE 
list.add(product); 
} 
} 


该 方法 接收 指向 待 处 理 文件 的 
Path 对 象 作 为 参数 ， 并 采用 
ConcurrentLinkedDeque 类 
FEE 吉 果 。 我 们 使 用 
ProductLoader 类 将 待 处 理 文 
件 加 载 到 Product 对 象 ， 然 后 
仿 查 该 商品 的 名 称 中 是 否 包含 查 
询 中 的 术语 。 如 果 包 含 ， 那 么 将 
该 Product 対象 添加 到 
ConcurrentLinkedDeque 


o 


9.2.4 AMET 


与 本 书 的 其 他 例子 一 样 ， 两 个 版 
本 的 搜索 操作 都 实现 了 一 个 串 行 
版 本 ， 以 便 验 证 并 发 流 是 否 能 带 
来 性 能 上 的 改进 。 


你 可 以 在 前 面 介绍 的 四 个 类 中 删 
除 Stream 対象 中 para11e1( ) 
方法 的 调用 (该 方法 使 流 变 为 并 
发 流 ) ， 实 现 与 之 对 等 的 串 行 版 


小 。 


在 本 书 的 源 代码 中 ， 我 们 给 出 了 
SerialMainBasicSearch > 
SerialMainSearch > 
SerialStringAccumulator 
和 

entes E CU otor 
等 类 ， 它 们 都 是 按照 前 面 的 更 改 
方法 得 到 的 与 并 行 版 对 等 的 串 行 
版 类 。 


925 対比 実現 方 案 


我 们 对 实现 方案 (两 种 方案 : P 
行 版 和 并 发 版 ) 进行 了 测试 ， 以 
比较 其 执行 时 间 。 为 进行 测试 ， 


采用 了 三 种 查询 。 


= Patterns 
= Java 


我 们 采用 JMH 框 架 执行 了 这 些 

Bl, ARERR IH :在 Java 中 实现 向 
型 基准 测试 。 使 用 面向 基准 
A 的 解決 方 案 , 

ES 
currentTimeMillis() > 


nanoTime() 等 方法 度量 时 
间 。 在 两 种 不 同 的 架构 上 分 别 拟 
行 这 些 示例 10 次 。 

a 一 台 计 算 机 配置 了 Intel Core 
i5-5300%b HE gg > Windows 7 
操作 系统 和 16GB 的 RAM 。 
该 处 理 器 有 两 个 核 ， 且 每 个 
核 可 以 执行 两 个 线程 ， 这 样 
就 有 四 个 并 行 线程 。 

= 另 一 台 计 算 机 配置 了 AMD 
A8-6404 648 gr > Windows 10 
操作 系统 和 8GB 的 RAM ° 
该 处 理 器 有 四 个 核 。 

表 给 出 J 毫秒 表示 的 结果 。 

先 ， 展 示 字 符 串 搜索 操作 的 结 

果 o 
字符 串 搜索 
Intel 架 构 Al 
Java | Patterns | Tree Java P 
6 735.569 | 709.484 | 700.929 | 2245.603 | 2! 
并 
E 401.276 |524.252 | 395.022 | 1058.712 | 11 
现在 ， 对 象 搜索 操作 的 结果 如 
字符 串 搜索 
Intel 架 构 Al 
Java | Patterns | Tree Java P 
行 867.534 | 840.082 |854.299 | 2723.535 | 21 
版 
并 
发 1460.29 |463.201 | 476.244 | 1218.425 | 1: 
版 
可 以 得 到 如 下 结论 。 

. HATA AE 询 时 ， 结 果 非 
常 相似 。 它 们 之 间 仅 相差 数 
毫秒 2 x > 

。 字符 串 搜 索 的 执行 时 间 总 是 
比 对 象 搜索 的 执行 时 间 更 
(ko 

。 在 所 有 情况 下 ， 并 发 流 的 性 
EA 

如 果 对 并 发 版 种 行 版 加 以 比 
较 ， 例 如 ， 使 用 加 速 比 比较 查询 
Patterns 的 字符 串 搜 索 情 况 ， 可 
以 得 到 下 面 的 结果 。 


Tserial 2243.152 


Samp = 二 一 一 一 = ー ー 21: 
Teoncurrent 10 15.201 

o Teerial 709.484 me 

SIntel = „— — = === = 1.35 
Teoneurrent 924.252 


93 ”第 二 个 例子 : FE 
荐 系统 


推荐 系统 基于 用 户 曾经 购买 /使 
过 的 商品 /服务 向 其 推荐 商品 
基于 曾经 购买 /使 
bu 的 用 户 所 购买 /使 
过 的 商品 /服务 向 其 推荐 商品 


我 们 使 用 在 上 一 介绍 过 的 例子 
实现 了 一 个 推荐 系统 。 商 品 的 每 
AN] クン 

IS 


l 户 对 商品 的 评 


Hr 
-十 
A 
Nr 
Ir 
<= 
態 
= 
& 
ID 
I 
o 


9.3.1 公共 美 


我 们 在 上 一 节 使 用 的 公共 类 中 增 
加 了 两 个 新 类 。 如 下 所 示 。 


= ProductReview: 该 类 采 

两 个 新 属性 扩展 了 
Product 类 。 

= ProductRecommendatio 
nm。 该 类 存储 了 一 个 商品 的 


下 面 看 看 这 两 个 类 的 详细 信息 。 


a. ProductReview 类 


ProductReview 类 扩展 了 
Product 类 ， 它 增加 了 两 


个 新 属性 。 


= buyer: 该 属性 存放 
了 商品 客户 的 名 称 。 
= value: 该 属性 存放 
了 该 客户 在 其 评论 中 对 
商品 的 评价 。 


该 类 中 包含 了 对 这 两 个 属 
的 定义 、 对 应 的 getXXX( ) 


性 


和 setXXX( ) 方法 、 一 个 构 
E (Product 对 


象 创建 ProductReview 对 
象 


， 以 及 新 属性 的 值 。 该 


类 非常 简单 ， 因 此 这 里 不 提 
HE 


供 其 源 代码 。 


To 


n 


. ProductRecommendatio 


类 


ProductRecommendatio 


n 


类 存放 了 商品 推荐 所 需 的 


必要 信息 ， 包 括 如 下 内 容 。 


= title: 我 们 要 推荐 
的 商品 名 称 。 
a value: 推荐 的 分 
下， 这 是 通过 计算 商品 


所 有 评论 的 平均 分 值得 


该 类 包含 了 属性 定义 、 相 应 
的 getXXX( ) 和 setXXX( ) 
方法 ， 以 及 compareTo( ) 
方法 的 实现 (该 类 实现 了 
Comparable 接口 ) , 通 
过 compareTo( ) 方法 可 以 


按照 降序 对 推荐 评分 进行 排 


序 。 该 类 非常 简单 ， 此 处 不 


提供 其 源码 。 


9.3.2 


Concu 


E, U 


我 们 在 


ation X 


推荐 系统 : 主 类 


rrentMainRecommend 
实现 了 我 们 的 算 
获得 针对 某 个 客户 的 推荐 


商品 列表 。 该 类 实现 了 main() 
， 该 方法 接收 要 获取 推荐 商 


户 ID 作为 参数 。 我 们 有 如 


public 


Path 


main(String[] args) { 
String user = args[0]; 


Paths.get("data"); 
try { 
Date start, end; 
start=new Date(); 


static void 


file = 


我 们 在 最 终 解决 方案 中 使 用 了 不 
MIN 第 一 个 流 从 


List<Product> productList = 
Files.walk(file, 
FileVisitOption 


.FOLLOW_LTNKS ) . para11e1( ) .f11t 
er(f-> f 


.toString().endswith(".txt")) 


.collect(ArrayList<Product>::n 
ew, new 


ConcurrentLoaderAccumulator(), 


List: :addA11 ) 


该 流 有 如 下 元 素 。 


(1) 使 用 Files 美的 wa1k( ) 方 

法 启动 该 流 。 该 方法 将 创建 一 个 

流 来 处 理 Data 目 录 下 的 所 有 文件 
XK 


o 


(2) RE, 使用 para11e1( ) 方 
法 将 该 流转 换 成 一 个 并 发 流 。 


(3) 之 后 ， 仅 获取 扩展 名 为 ,txt 的 
DEF 


(4) Sa, 使用 co11ect( ) 方法 
获取 Product 対象 的 
ConcurrentLinkedDedue 
类 。 该 类 和 之 前 用 到 的 类 非常 相 
似 ， 不 同 之 处 是 采用 了 另 一 个 
Accumulator。 本 例 用 到 7 
ConcurrentLoaderAccumul 
ator 类 ， 这 将 在 稍 后 进行 介 
绍 。 


一 旦 获取 到 商品 列表 ， 便 准备 用 
一 个 Map 组 织 这 些 商 品 ， 将 客户 
的 村 MEAN 该 Map 的 键 7 使 E 
ProductReview 类 来 存放 有 关 
这 些 商 品 的 客户 信息 。 我 们 需要 
为 每 个 商品 评论 创建 一 个 
ProductReview 对 象 。 使 用 下 


面 的 流 完成 该 转换 。 


Map<String, 
List<ProductReview>> 
productsByBuyer= 


productList.parallelStream() 


<ProductReview>flatMap(p -> 
p.getReviews() 

.stream().map(r 
-> new ProductReview(p, 
r.getUser(), 


r.getValue()))).collect(Collec 
tors 


.groupingByConcurrent( p -> 
p.getBuyer())); 


该 流 具 有 下 述 元 素 。 


(1) 采用 productList 对 象 的 
parallelStream() 方法 启动 
该 流 ， 这 样 就 创建 了 一 个 并 发 


(2) 然后 ， 使 用 flatMap( ) 方法 
将 现 有 的 product 对 象 流转 换 
成 一 个 唯一 的 ProductReview 


对 象 流 。 


(3) Ja, 使用 co11ect( ) 方法 
生成 最 后 的 Map。 本 例 用 到 了 由 
Collectors 类 的 
groupingByConcurrent 
方法 生成 的 预定 义 收 集 器 。 
的 收集 器 将 生成 一 个 Map ， 其 键 
为 购买 者 属性 的 取 值 ， 而 其 人 
A 対象 列 
表 na Ti HA PrE 
的 信息 EN 上 如 1) 

示 , 该 村 奥 将 以 并 发 方式 执行 。 


程 。 第 一 个 阶段 ， 获 取 购 买 了 原 


段 ， 生 成一 條 Map, HEA 
文 些 客户 所 购买 的 商品 ， 以 及 这 
些 客户 针对 商品 所 做 的 评论 。 该 


Map<String,List<ProductReview> 
> recommendedProducts= 
productsByBuyer 


.get(user).parallelStream().ma 
p(p -> p 


.getReviews()).flatMap(Collect 
ion::stream) 


.map(r -> 
r.getUser()).distinct() 


.map(productsByBuyer::get) 
.FlatMap(Collection::stream) 


.collect(Collectors.groupingBy 
Concurrent 


(p -> p.getTitle())); 


在 该 流 中 有 如 下 元 素 。 


(1) 首先 ， 获 取 用 户 所 购买 商品 
的 列表 ， 更 用 
para11e1Stream( ) 方法 来 4 
成 一 个 并 发 流 。 


(2) 然后 ， 使 用 map( ) 方法 获取 
所 有 有 关 这 些 商品 的 评论 。 


(3) 此 时 ， 有 了 一 个 
List<Review> 流 。 将 该 流转 
换 成 一 个 Review 对 象 流 。 现 
E, MA SSE RAP PIS 
商品 的 全 部 评论 的 流 。 


(4) 然后 ， 将 该 流转 换 成 一 个 
string 对 象 流 ， 其 中 含有 提交 
这 些 评论 的 用 户 的 名 称 。 


E 


， 使 idistinct() H 
获取 唯一 的 用 户 名 称 。 现 在 就 有 
了 一 个 String 对 象 流 ， 其 中 包 
含 了 那些 与 原 用 户 购买 了 相同 商 
品 的 用 户 名 称 * 


更 用 map( ) 方法 将 每 
1 


个 客户 与 其 已 购 商 品 列 表 对 应 起 


(7) 此 时 ， 就 有 了 一 个 

List<ProductReview> 对 象 
流 ・ 使用 flatMap( ) 方法 将 该 
流转 换 成 一 个 ProductReview 
对 象 流 。 


(8) Ba, 使用 co11ect( ) 方法 
和 
groupingByConcurrent() 
收集 器 生成 一 个 商品 Map。 该 
Map 的 键 是 商品 名 称 ， 而 其 值 3 
ProductReview 対象 列表 . 


Mi 


fin 


列表 含有 前 面 已 获取 到 的 客户 评 


法 ， 还 需要 最 


按照 降序 对 该 列表 进行 排序 ， 
以便 将 排 在 前 面 的 商品 放 在 首要 
VyV 置 显示 。 为 了 进行 这 样 的 转 
换 ， 要 采用 一 个 额外 的 流 。 


ConcurrentLinkedDeque<ProductR 
ecommendation> recommendations 


recommendedProducts.entrySet() 
.parallelStream() 


.map(entry 
-> new 
ProductRecommendation(entry 

.getKey(), 


entry.getValue().stream().mapT 
oInt(p-> 


p.getValue()).average().getAsD 
ouble())) 


.sorted().collect(Collectors.t 
oCollection 


(ConcurrentLinkedDeque: : new) ) / 
end=new Date(); 
recommendations. 

forEach(pr -> 

System.out.println 

(pr.getTitle() 


+": "+pr.getValue())); 


System.out.printin("Execution 
Time: "+(end.getTime()- 


start.getTime())); 


} catch (IOException e) { 
e.printStackTrace(); 


} 
} 
} 


导 到 的 Map。 对 于 每 
其 评论 列表 进行 处 
理 ， 生 成 一 个 


ProductRecommendation 对 
象 。 需 要 通过 一 个 流 来 计算 每 个 
评论 的 平均 值 作为 该 对 象 的 值 ， 
这 就 要 使 用 napToInt ) 方法 
将 ProductReview 对 象 转换 成 
一 个 整数 流 ， 并 且 使 用 
average() 方法 求 取 字符 
所 有 数值 的 平均 值 。 


マン 


y 
TH (E 
E Ey E 
St 

> 

m 

UN 


DO 


最 后 ， 在 关于 推荐 的 
ConcurrentLinkedDeque 类 
i 省 三 个 


ProductRecommendation xy 
象 列表 E 
sorted() dee 该 列表 进 
行 排序 。 使 用 该 流 将 最 终 列表 输 
出 到 控制 台 


E 


o 


9.3.3 
ConcurrentLoaderAccu 


mulator 类 


为 了 实现 本 例 ， 使 用 了 
ConcurrentLoaderAccumul 
ator X, EfEcollect() 方 
EY HfEAccumulator& X, # 
含有 全 部 待 处理 文件 路 径 的 
Path 对 象 流 转换 为 天 于 
Product 対象 的 
ConcurrentLinkedDedue 


类 。 该 类 的 源 代码 如 下 : 


H 


public class 
ConcurrentLoaderAccumulator 
implements 

BiConsumer<List<Product>, 
Path> { 


@Override 

public void 
accept(List<Product> list, 
Path path) { 


Product 
product=ProductLoader .load(pat 
h); 

f list.add(product); 


EIRE T BiConsumer 
ZO o 'accept() 方 法 使用 
ProducLoader 3 E (在 本 章 前 
面 做 过 解释 ) 从 文件 加 载 商品 
言 息 ， 并 且 将 作为 结果 的 
Product 対 象 添加 到 以 参数 传 
递 的 List É o 


9.34 FBT 


正如 本 书 的 其 他 例子 一 样 ， 本 例 
ELMI NETRE, 
行 流 对 应 用 程序 性 能 的 提升 情 


况 。 为 了 实现 该 申 行 版 本 ， 要 遵 
循 下 述 步骤 。 


(1) 将 
ConcurrentLinkedDeque 数 
据 结构 替换 为 List 或 
ArrayList 数据 结构 > 


(2) #parallelStrem() 方法 
更 改 为 stream( ) 方法 。 


(3) 将 
gropingByConcurrent() 方 
法 更 改 为 groupingBy( ) 方 

YŠ e 
可 以 在 本 书 配套 的 源 代码 中 查看 
本 例 的 串 行 版 。 


9.3.5 ”对比 两 个 版 本 


为 了 对 比 推荐 系统 的 串 行 版 和 并 
发 版 ， 我 们 获取 了 三 个 用 户 的 推 
荐 商品 。 


= AZJOYUS36FLG4Z 
= A2JW670Y8U6HHK 
= A2VE83MZF981ITY 


我 们 采用 JMH 框 架 执行 了 这 些 示 
网， 该 框架 允许 在 Java 中 实现 微 
型 基准 测试 。 使 用 面向 基准 测试 
A IO 
currentTimeMi11is( ) 方 法 
或 者 nanoTime( ) 方法 度量 时 
间 。 在 两 种 不 同 的 架构 上 分 别 执 
行 这 些 示例 10 次 。 


a 一 台 计 算 机 配置 了 Intel Core 
i5-5300 处 理 器 、Windows 7 


该 处 理 3 有 两 个 核 每 个 
核 可 以 执行 两 个 线程 ， 这 样 


A2JOYUS36FLG4Z | A2JW670Y8U6H! 
Intel 架 构 


1639.685 1542.804 


ZE > 
Sh NH 


并 |1030.635 1061.247 
发 
版 
AMD 架 构 
行 3361.956 3412.680 
版 
并 
& | 1866.653 1871.919 
版 
可 以 得 出 如 下 结论 。 
" 针对 这 三 个 用 户 得 到 的 结果 
非常 相似 。 
”并 发 流 的 执行 时 间 总 是 比 顺 
序 流 的 执行 时 间 更 优 。 
如 果 对 比 并 发 版 本 和 串 行 版 本 ， 
例如 ， 对 第 二 个 用 户 的 结果 使 用 
加 速 比 ， 可 得 到 如 下 结果 。 
G Tserial = 3412.680 = 
> Teoncurrent 7 1871.919 = 
5 Tserial 1542.804 
SIntel = ーー 
Teoncurrent 1061.247 


9.4 
交 网 络 中 
人 


— 
— 
— 


个 例子 : 社 
的 共同 联系 


社交 网 络 正在 


LA 


改变 着 社会 ， 也 改 


交 网 络 1 
as 


Be MMF 


TEZ IRA i 


Facebook ` 
及 Instagr 


am 者 


Linkedin > Twitter LA 


A, 


拥有 数 百 万 用 


这 些 


也 们 使 用 


, FE) 


IES 


的 每 个 瞬间 ， 建立 条 的 职业 
AS MY 


H 
P> 


ARE, SHAZ 


趋势 。 


或 者 只 是 J 解 


世界 的 最 


展 
ESS 


LAX 
LX 


DE 


p 


pa 


EVA, 


系 是 边 。 和 


e] — 


的 社交 


FacebookX i} 
户 之 


JF BA 
5 


EM 


IA AA 
向 的 


EKEK, 
j 户 A 相 关联 。 


A 


象 Twitter 这 村 


的 社 


LAC Px ZB 


户 之 
情况 下 ， 我 1 


间 的 关系 是 有 向 


。 在 这 种 
P 


的 。 
FAR 


] 称 


B, 但 
To 


是 反 过 来 就 不 一 定 为 真 


本 市 将 实现 一 个 


算法 来 


网 络 中 每 一 对 用 


系 人 ， 且 该 社交 
为 双向 关系 。 我 


Krenzel 在 “MapReduce: Finding 


FP 讲 述 


RUF 


Friends” H 


的 主要 歩 敵 


户 之 ih 
网 络 
门将 实 ] 


Steve 


DA ° RA 


四 源 是 一 


联系 


个 存放 有 每 
人 的 文件 。 


着 用 户 A 的 联系 人 


D 。 考 虑 到 他 
ajA, [Al 
的 联系 人 ， 那 


这 
这 样 ， 


个 部 


9 联系 人 ， 而 且 


JH 


这 两 个 关系 都 要 
AA 


户 
H 


生成 一 


PARA < 


的 联系 人 列表 。 
个 元 素 集 


FEE 


| 个 元 素 都 有 =A 


这 三 个 


部 分 如 下 所 


一 个 


。 一 个 朋友 的 用 


户 


e 该 月 


户 标识 符 +2 
户 标识 


的 联系 人 列表 。 


JPA, KER 


对 有 
BEA 


Ho 


TE TUA ABI TAB TA Ab 
我 们 将 存 


储 两 个 用 


户 标识 符 


按照 字母 表 顺 


T 


排序 。 这 样 ， 
六 生成 下 述 元 素 。 


对 用 户 B， 就 


生成 月 


和 有 的 新 元 素 后 ， 


アテ 


照 两 个 


1 EITAN 
组 A- B, 
组 。 


将 生 


户 标识 符 对 它 
网 如 ， 对 于 元 


成 下 面 的 分 


o 


A-B-(B,C,D), 


(A,C,D,E) 


NEAR 


AECH 


an 


Hi] 


测试 该 算法 ， 


面 给 出 的 测 


试 样 例 。 


社交 


el: 可 通 


过 网 址 


https://snap.stanford. 


edu/data/ 


egonets-Facebook.html 下 载 


Facebook 数 据 集 
4039 个 Faceb 


ook 


人 信息 


E 


据 转换 成 为 
数据 格式 。 


9.4.1 基本 美 


本 


也 实现 了 本 例 的 
以 此 来 验 


与 本 书 中 的 


他 例 


FF, 
IES ATH AN 
证 并 发 流 六 


版本 , 
能 的 改进 


情況 这 两 个 版 


程序 性 
本 的 程序 有 一 些 


HE 


a. Person & 


Person 类 存储 了 关于 社 


网 
括 如 


络 中 每 个 
下 要 素 。 


E 的 
Es fá 
该 


FA 


户 


co HF 


XL 
E td, 


ARNE) 


“DD > 


] ID, 存放 在 ID 


的 联系 人 列 3 


K, 


J— String 対象 列 


To 


SARA 


该 类 声明 了 上 述 两 个 属性 ， 
以 及 与 之 对 应 的 getXXX( ) 
a ag Oke 此 
外 ， 还 需要 一 个 构造 函数 以 
凶 建 该 联系 人 列表 ， 还 有 
个 名 为 addcontact() 的 
方法 ， 该 方法 用 于 将 单个 联 
系 人 添加 到 联系 人 列表 。 该 
类 的 源码 非常 简单 ， 在 此 不 


再 给 出 。 


i | 
a aS 


1 


. PersonPair 类 


PersonPair 类 扩展 了 
Person 类 ， 增 加 了 存放 第 
二 个 用 户 标 识 符 的 属性 。 将 
该 属性 称 作 otherId 。 该 
类 声明 了 该 属性 以 及 相应 的 
getXXX( ) 方法 和 
setXXX( ) 方法 。 还 需要 一 
14 NgetFullId() 的 方 
法 ， 该 方法 返回 一 个 含有 两 
个 POT. E 
门 之 间 采 用 字符 ,分隔 。 该 
天 的 源 代码 非常 简单 ， 因 此 


这 里 不 再 给 出 。 


. DataLoader 类 


DataLoader 类 加 载 带 
IP HER LAR AL 


y 
Person 対象 列表 * IZR 
实现 了 一 个 名 为 load( ) 的 
静态 方法 ， 该 方法 接收 以 

String 对 象 出 现 的 文件 路 
径 作为 参数 ， 并 且 返 回 


如 前 所 示 ， 该 文件 具有 如 下 
格式 。 


User-C1,C2,C3...CN 


', User 是 用 户 的 标识 
符 ， 面 C1 ヽ C2 、C3.. .CN 
都 是 该 户 联系 人 的 标识 
NE o 


该 类 的 源 代码 非常 简单 ， 
此 不 再 给 出 。 


y 


9.4.2 ”并 发 版 本 


月 
7 


N o 


a 


E， 分 析 一 下 该 算法 的 并 发 版 


. CommonPersonMapper 类 


CommonPersonMapper 类 
是 稍 后 将 要 用 到 的 一 个 辅助 
类 。 它 将 生成 所 有 的 
PersonPair 对 象 ， 这 些 
对 象 可 以 从 Person 対象 生 
成 。 该 类 实现 了 Function 
接口 ， 而 该 接口 采用 
Person 类 和 
List<PersonPair> 类 参 


数 化 


该 类 实现 了 Fuction 接口 
中 定 又 的 app1y( ) 方法 。 
首先 ， 初 始 化 将 要 返回 的 
List<PersonPair> 对 


R, 对 联系 人 列表 进行 
排序 。 


public class 
CommonPersonMapper 
implements 
Function<Person, 


List<PersonPair>> { 


@Override 
public List<PersonPair> 
apply(Person person) { 


List<PersonPair> 
ret=new ArrayList<>(); 


List<String> 
contacts=person.getContac 
ts(); 


Collections.sort(contacts 


); 


然后 ， 处 理 整 个 联系 人 列 
表 ， 为 每 个 联系 人 创建 
PersonPair 对 象 。 如 前 

所 述 ， 按 照 字 母 表 顺 序 存放 
两 个 联系 人 。 按 字母 表 排 序 
靠 前 的 存放 在 ID 字段 中 ， 而 
另 一 个 则 存放 在 otherId 


JT 


字段 中 。 


To 


for (String contact : 
contacts) て 

PersonPair 
personExt=new 
PersonPair(); 

if 
(person.getId().compareTo 
(contact) < 0) { 


personExt.setId(person.ge 
tId()); 


personExt.setOtherId(cont 


personExt.setId(contact); 


personExt.setOtherId(pers 
on.getId()); 
} 


最 后 ， 将 联系 人 列表 添加 到 
新 对 象 ， 并 且 将 该 对 象 添加 
到 结果 列表 。 处 理 完 所 有 的 
联系 人 后 ， 返 回 结果 列表 。 


personExt.setContacts(con 
tacts); 
ret.add(personExt); 


return ret; 


. ConcurrentSocialNetw 


ork 类 


ConcurrentSocialNetw 
ork 类 是 本 例 的 主 类 。 它 仅 
仅 实现 了 一 个 名 为 
bidirectionalCommonC 
ontacts() 的 静态 方法 。 
该 方法 接收 社交 网 络 上 的 人 
員 列 表 (GARRA) , 
返回 一 个 PersonPair 
对 象 列 表 ， 这 些 
PersonPair 対象 中 含有 
每 一 对 互 为 联系 人 的 用 
间 的 共同 联系 人 。 


从 内 部 来 看 ， 我 们 使 用 不 同 
的 流 来 实现 自己 的 算法 。 我 


们 使 用 第 一 个 流 将 Person 


y 


PE 


Tr 


对 象 的 输入 列表 转换 成 一 个 
Map。 该 Map 的 键 为 每 一 对 
户 的 两 个 标识 符 ， 而 其 值 
为 一 个 含有 两 个 用 户 联系 人 
的 PersonPair 対象 列 
表 。 这 样 ， 这 些 列表 总 是 有 
两 个 元 素 。 代 码 如 下 : 


public class 
ConcurrentSocialNetwork { 


public static 
List<PersonPair> 
bidirectionalCommonContac 
ts 


(List<Person> people) { 
Map<String, 
List<PersonPair>> group = 
people.parallelStream() 


.map (new 
CommonPersonMapper ( ) ) 


.flatMap(Collection::stre 
am) 


.collect(Collectors.group 
ingByConcurrent 


(PersonPair::getFullId)); 


该 流 有 如 下 组 件 。 


(1) 使 用 输入 列表 的 
parallelStream () 方 法 


(2) 然后 ， 使 用 map ( ) 方法 
和 前 面 提 到 的 
CommonPersonMapper 类 
将 每 个 person 对 象 都 转换 
到 一 个 PersonPair 対象 
列表 中 ， 这 其 中 考虑 到 了 该 
对 象 的 所 有 可 能 结果 。 


(3) 此 时 ， 有 了 一 个 
List<PersonPair> 对 象 
流 。 我 们 使 用 flatMap() 
方法 将 该 流转 换 成 一 个 
PersonPair 对 象 流 。 


(4) 最 后 ， 使 用 collect() 
方法 生成 该 Map， 这 要 用 到 
groupingByConcurrent 
o 方法 返回 的 收集 器 ， 而 
HgetFu11Td( ) 方法 返 
回 的 值 作为 该 Map 的 分 。 


Ble 


Kia, 使用 Co11ectors 
美的 of( ) 方法 创建 一 个 新 
的 收集 器 。 该 收集 器 将 接收 
一 个 字符 串 Collection 
作为 输入 ， 使 用 
AtomicReference<Coll 
ection<String>> 接 
作为 ' 间 数据 结构 ， 并 且 返 


回 一 个 字符 串 Collection 
作为 返回 类 型 。 


Collector<Collection<Stri 
ng>, 
AtomicReference<Collectio 
n<String>>, 


Collection<String>> 

intersecting = 

Collector.of(() -> 
new 


AtomicReference<>(null), 
(acc, list) -> { 

(acc, list) -> { 

if (acc.get() == null) 


acc. updateAndGet (value -> 
new 
ConcurrentLinkedQueue<> 
(list)); 

} else { 


acc.get().retainAll(list) 


7 


}, (acc1, acc2) -> { 
if (acci.get() == null) 
return acc2; 
if (acc2.get() == 
null) 
return acci; 


acc1.get().retainAl1(acc2 
.get()); 
return acci; 

}, (acc) -> acc.get() == 

null ? 

Collections.emptySet() 
acc.get(), 

Collector.Characteristics 

. CONCURRENT, 


Collector.Characteristics 
. UNORDERED) ; 


of () 方法 的 第 一 个 参数 是 
Supplier 函 数 。 需 要 创建 一 
个 中 间 数 据 结构 时 ， 总 是 要 
调用 该 Supplier。 在 串 行 流 
中 ， 该 方法 仅 被 调用 一 次 ， 
但 是 在 并 发 流 中 ， 每 个 线程 
都 会 调用 该 方法 。 


-> new 
AtomicReference<>(null), 


在 我 们 的 例子 中 ， 会 直接 创 
建 一 个 新 的 
AtomicReference 来 存 
放 Co11ection<String> 
対象 * 


of ) 方法 的 第 二 个 参数 是 
Accumulator 函 数 。 该 函数 
接收 中 间 数 据 结 构 和 一 个 输 
入 值 作 为 参数 。 


(acc, list) -> { 
if (acc.get() == null) 


acc. updateAndGet (value -> 
new 
ConcurrentLinkedQueue<> 
(list)); 

} else { 


acc.get().retainAll(list) 
} 
} 


在 我 们 的 例子 中 ，acc 参数 
是 AtomicReference , 
而 List 参数 是 
ConcurrentLinkedDequ 
e > 如果 acc 参数 存储 的 是 
空 值 ， 那 么 使 用 
AtomicReference 的 
updateAndGet( ) 方法 。 
该 方法 更 新 当前 值 并 且 返 下 
新 人 s 如 果 
AtomicReference 为 
nu11 ， 本 例 创建 一 个 含有 
该 列表 元 素 的 新 
ConcurrentLinkedDequ 
Bs 如果 
AtomicReference 不 为 
空 ， 那 么 使 用 
retainall() 方法 添加 该 
列表 的 所 有 元 素 。 


of ) 方法 的 第 三 个 参数 是 
Combiner 函 数 ° ADO TE 
并 行 流 中 调用 ， 它 接收 两 个 


中 间 数 据 结 构 作 为 参数 ， 并 
仅 生成 一 个 数据 结构 。 


(acc1，acc2) -> 
if (acci.get() == null) 
return acc2; 
if (acc2.get() == null) 
return acci; 


acc1 .qet( ) .retainA11( acc2 


・9et( ) ): 
return acci; 
}, 


在 我 们 的 例子 中 ， 如 果 其 中 
一 个 参数 为 null ， 则 返 匠 
男 一 个 数据 结构 。 否 则 ， 
用 acc1 参数 的 
retainall() 方法 并 且 返 
回 结果 ° 


of() 方法 的 第 四 个 参数 是 
Finisher ži -© ZKA É 

后 的 中 间 数 据 结 转换 成 我 
们 希望 返回 的 数据 结构 。 在 
我 们 的 例子 中 ， 中 间 数 据 结 
构 和 最 终 数据 结构 相同 ， 因 
此 不 需要 转换 。 


= 
T 
F 


(acc) -> acc.get() == 
null ? 
Collections.emptySet() : 
acc.get(), 


最 后 ， 使 用 最 后 一 个 参数 指 
明 该 收集 器 是 并 发 的 。 这 就 
意味 着 ， 同 一 个 结果 容器 可 
以 从 多 个 < 同 线程 并 发 调用 
7% Accumulator EX É; 该 收 
集 器 是 无 序 的 ， 这 就 意味 
着 ， 该 操作 不 会 保留 元 素 的 
原始 | FF 2 


定义 了 收集 器 后 ， 还 要 将 第 
一 个 流 生成 的 Map 转 换 成 一 
个 PersonPair 对 象 列 
K, 让 中 含有 每 一 对 用 户 的 
LIRA A o 我 们 采用 下 壕 
代码 : 


List<PersonPair> 
peopleCommonContacts = 


group 


.entrySet().parallelStrea 

m().map( (entry) -> { 
Collection<String> 

commonContacts = entry 


.getValue().parallelStrea 
m().map(p -> p 


.getContacts()).collect(i 
ntersecting); 

PersonPair person = 
new PersonPair(); 


person.setId(entry.getKey 
().split(",")[0]); 


person.setOtherId(entry.g 
etKey() split (",")[1]); 


person.setContacts(new 

ArrayList<String> 

(commonContacts)); 
return person; 


}).collect(Collectors.toL 
ist()); 


return 
peopleCommonContacts; 


} 


使用 entySet( ) 方法 处 理 
该 Map 的 所 有 元 素 。 创 建 
parallelStream() 方法 
来 处 理 所 有 的 Entry 对 
象 ， 然 后 使 用 map( ) 方法 
将 每 个 PersonPair 対象 
列表 转换 为 一 个 含有 共同 联 
系 人 的 唯一 PersonPair 

对 象 。 


对 每 条 记录 来 说 ， 其 键 是 
对 用 户 的 标识 符 ( 以 逗 号 作 
为 分 隔 符 ) ， 而 其 值 是 由 两 
个 PersonPair 对 象 组 成 
的 列表 。 第 一 人 
PersonPair 対象 
一 个 用 户 的 联系 人 ,， ma 
个 PersonPair WRAPS 
男 一 个 用 户 的 联系 人 。 


我 们 为 该 列表 创建 一 个 流 来 
生成 两 个 用 户 的 共同 联系 
人 ， 其 中 含有 如 下 元 素 。 


E 


HE Gi 


(1) 使 用 该 列表 的 
parallelStream() 方法 
创建 该 流 。 


(2) 使用 map( ) 方法 来 将 每 


换 为 存放 在 该 对 象 中 的 联系 
人 列表 。 


(3) 最 后 ， 使 用 收集 器 生成 
含有 共同 联系 人 的 
ConcurrentLinkedDequ 
e o 


最 后 ， 创 建 一 个 新 
PersonPair 对 象 ， 其 中 
含有 两 个 用 户 的 标识 符 
共同 联系 人 列表 。 将 该 对 
添加 到 结果 列表 。 该 Map 
的 所 有 元 素 处 理 完毕 后 ， 
以 返回 该 结果 列表 。 


I 


aE 


. ConcurrentMain & 
ConcurrentMain 类 实现 

了 main( ) 方法 ， 用 于 测试 

算法 。 如 前 所 述 ， 使 


该 类 的 源 代码 如 下 : 


public class 
ConcurrentMain { 


public static void 
main(String[] args) { 


Date start, end; 


System.out.printin("Concu 
rrent Main Bidirectional 
- Test"); 

List<Person> 
people=DataLoader.load("d 
ata", "test.txt"); 

start=new Date(); 

List<PersonPair> 
peopleCommonContacts= 
ConcurrentSocialNetwork 


.bidirectionalCommonConta 
cts (people); 
end=new Date(); 


peopleCommonContacts.forE 
ach(p -> 
System.out.println 


(p.getFullId()+": 
"+getContacts(p.getContac 
ts()))); 


System.out.printin("Execu 


tion Time: "+ 
(end.getTime()- 


start.getTime())); 


System.out.println("Concu 
rrent Main Bidirectional 


Facebook"); 


people=DataLoader.load("d 
ata","facebook_contacts.t 
xt"); 
start=new Date(); 
peopleCommonContacts= 
ConcurrentSocialNetwork 


.bidirectionalCommonConta 
cts (people); 
end=new Date(); 


peopleCommonContacts.forE 
ach(p -> 
System.out.println 


(p.getFullId()+": 
"+getContacts(p.getContac 
ts()))); 


System.out.printin("Execu 
tion Time: "+ 
(end.getTime()- 


start.getTime())); 


} 


private static String 

formatContacts(List<Strin 
g> contacts) { 

StringBuffer 
buffer=new 
StringBuffer(); 

for (String contact: 
contacts) て 


buffer.append(contact+"," 


, 


return 
buffer.toString(); 


} 
} 


9.4.3 串 行 版本 


和 本 书 的 其 他 例子 一 样 ， 我 
们 也 为 本 例 实现 了 串 行 版 。 
该 版 本 相当 于 对 并 发 版 做 如 
下 更 改 。 


= 用 stream( ) 方法 替换 
parallelStream() 
方法 。 


Y 


= 用 ArrayList 数据 结 
构 替 换 
ConcurrentLinked 
Deque 数据 结构 。 
= 用 groupingBy() 方 
TEST 
groupingByConcur 
rent() 方 法 
・ 不 使用 of() 方法 中 
后 的 参数 。 


9.44 ”对比 两 个 版 本 


我 们 采用 JMH 框 架 执 行 这 些 
示例 ， 该 框架 允许 在 Java 中 
实现 微型 基准 测试 。 使 用 症 
癌 基 准 测 试 的 框架 是 比较 好 
的 解决 方案 ， 它 直接 
currentTimeMillis() 
方 法 或 者 nanoTime( ) 方 
法 度量 时 间 。 在 两 种 不 同 的 
架构 上 分 别 执行 这 些 示例 10 
次 。 
a 一 台 计 算 机 配置 了 Intel 
Core i5-5300 处 理 器 、 
Windows 7 操作 系统 和 
16GBAYRAM ° 
器 有 两 个 核 ， 且 每 个 核 
可 L Na. 这 
样 就 有 四 个 并 行 线程 。 
= 另 一 全 计算机 配置 了 
AMD A8-640 处 理 器 、 
Windows 10 操 作 系 统 和 
8GB 的 RAM。 该 处 理 
器 有 四 个 核 。 


结果 如 下 (単位 : EM) e 


示例 数据 集 | Facebook 

Intel 架 构 
337TH | 0.562 3193.83 
并 发 版 2.037 1778.239 
AMD 架 构 
Th | 3.325 8953.173 
并 发 版 | 2.976 3447.576 


in 


可 以 得 出 如 下 结论 。 


= 对 于 示例 数据 集 ， 在 
Intel 架 构 上 串 行 版 的 执 
行 时 间 结 果 更 好 ， 而 在 
AMD LESI 
表現 ・ 原因 在 干 示例 数 
据 集中 的 元 素 比 较 少 。 


= 对 于 Facebook 数 据 集 ， 
发 版 在 两 种 架构 上 的 
执行 时 间 结 ESS EF o 


针对 Facebook 数 据 集 比较 
发 版 和 串 行 版 ， 就 会 得 到 如 
下 结果 。 


S = Tserial = 8953.173 _ 

O ee 3447.576 

or Tserial 3193.83 

ら Tntel = = em = 
Teoncurrent 1778.239 

95 小 结 


本 章 使 用 Stream 框架 提供 
的 多 人 版本 的 co11ect( ) 
方法 对 流 i 的 元 素 进 行 转换 和 
分 组 。 本 章 和 第 8 章 介绍 了 
如 何 使 用 完整 的 流 API。 


基本 上 , co11ect( ) 方法 
需要 ie al 


:用 的 中 间 数 据 结构 
义 及 返回 的 最 终 数据 结构 。 


本 = (58 FA J collect () 方 


y 
Pa SEF $e 


在 社交 网 络 中 计算 两 个 用 户 


之 间 共 同 联系 人 的 工具 。 


下 一 章 将 深入 研究 反应 流 
编程 ， 这 是 Java 9 中 引入 的 
一 种 新 特性 。 


第 10 章 + 
步 流 处 理 : 反 
应 流 


反应 流 为 带 有 非 阻塞 回 压 
(back pressure) 的 异步 流 


处 理 定 义 了 标 
最 大 的 问题 是 资 


准 


TA 


速 的 生产 者 全 


AEM e 


数据 
加 ， 从 而 
Wee EIER 
者 和 消费 


队列 规 


调 的 


队列 含有 


= 
RÃ 


必要 操作 
`、 方 法 和 


EE 


= 发布 


A RE 


LES) 


订阅 关系 
反应 流 规范 根 


消 


o 


据 以 下 规则 


明 


确 了 这 些 类 应 


者 被 
Well) 


通 
] HA 


将 添 力 
[的 订阅 


该 如 何 


[那些 希望 
者 。 
发 布 者 添加 时 
知 。 


交互 。 


ur 
来 自发 布 


异步 方式 请 求 
者 的 一 个 或 多 


T 條 元素 , 
请 求 


o 


也 就 是 说 ， 
元 素 并 继续 其 


T, 


求 元 素 


如 前 所 壕 ， 


的 所 有 


这 些 


通信 都 


所 
是 异步 的 ， 基 


用 多 核 处 理 器 


Java 9 包含 了 三 

Flow.Publi 
Flow.Subsc 
Flow. pean 


此 可 以 充分 利 


的 全 部 性 能 


HE ° 
个 接口 ， 即 
sher > 
riber 和 
ription, 


以 及 一 


el 
H 


IX 


Pu isher 
持 实现 反应 流 


o 


BEST ZA AD] 


这 些 元 素 


这 应 用 程序 > 
tá 


NA 


在 本 H K 


ト 章 中 , 


实现 基本 的 反 


将 通过 以 下 主 


题 学 习 如 何 使 


m Java 反 应 流 


反应 流 。 


De RES A 
JA) 


介 * 


”第 一 个 例子 : 面向 事件 


统 。 


通知 的 集中 式 系统 。 
= 第 二 个 例子 : 


新 闻 系 


过 


10.1 Java 反 应 流 


简介 


AE 


介绍 了 反应 流 的 定 


以 ヽ 本 EN 
JCA Java 


ER Dh Rix He 


的 実現 方 式 


ョ m Flow. Publisher & 


O: 


的 生 


FA o 


= Flow.Subscriber 


ED: 


该 接口 描述 了 


的 使 


て HU 
I 
rn 
yo 
TT 
一 < 
E 
AE 


除了 这 三 


个 接口 之 外 ， 还 有 


实现 Flow. Publisher 接 


SubmissionPublisher 


的 
K o TIE 
Flow.S 


¡EM 


ubscription 接 
实现 。 该 类 实现 了 
ublisher 接口 的 


而 可 以 支持 消费 者 


Flow. Serie 


的 类 。 


2 


解 一 下 这 些 类 和 


R 口 所 提供 的 方法 < 


10.1.1 


Flow.Publisher 接口 
如 前 所 述 ， 


的 生 j 


该 接口 描述 了 条 


SE 它 只 提供 AS 


方法 。 


= subscribe( ) : 该 方 


法 


接收 


Flow.Subscriber 


接 


的 一 


个 实现 作为 参 


数 ， 并 且 将 该 订阅 者 添 
加 到 其 内 部 订阅 者 列 
表 。 该 方法 并 不 返回 任 
何 结果 。 从 内 部 来 看 ， 
它 使 用 
Flow.Subscriber 
接口 提供 的 方法 向 订阅 
者 发 送 条 目 、 错 误 信 息 
和 订阅 对 象 。 


10.1.2 
Flow.Subscriber 接 


如 前 所 述 ， 该 接口 描述 了 条 
的 消费 者。 它 提供 了 下 壕 


= onSubscribe(): 

方法 由 发 布 者 调用 ， 用 

于 完成 订阅 者 的 订阅 过 
程 。 它 向 订阅 者 发 送 了 
Flow.Subscriptio 
n 对 象 ， 该 对 象 管理 发 
布 者 和 订阅 者 之 间 的 通 


= onNext( ) : 当 发 布 者 
想 把 新 条 目 发 送 给 订阅 
者 时 ， 会 调用 该 方法 。 


= oncomplete() : 不 
J 发 送 任 可 条 HR ET, 
布 者 将 调用 该 方法 。i 


10.1.3 
Flow.Subscription 


接口 


如 前 所 述 ， 该 对 象 描述 了 发 
布 者 与 订阅 者 之 间 的 通信 。 
它 提供 了 两 个 方法 ， 订 阅 者 
A 
者 


J 以 通过 这 些 方法 告诉 发 布 
它们 的 通信 将 如 何 进行 。 


= cancel(): 订阅 者 调 


该 方法 ae E 


10.1. 


anal AS 


mm En] E In se: 
quest(): 订阅 者 
用 该 方法 来 告诉 发 布 
它 需 ESE 多 的 条 
将 订阅 者 想 要 的 条 
作为 参数 。 


4 


SubmissionPublish 


erX 


如 前 所 述 ， 这 个 类 由 Java 9 
API 提 供 ， 实 现 了 


Flow.Publisher 接口 。 


它 还 使 用 


Flow.Subscription 接 


提供 向 消费 者 发 送 


的 方法 ， 这 些 方法 于 
消费 者 数量 、 发 布 者 和 
者 之 间 的 订阅 关系 ， 以 
闭 它们 之 间 的 通信 。 下 


给 出 了 该 类 比较 重要 的 方 


subscribe(): 该 方 
法 
Flow.Publisher 接 
提供 ， 用 于 向 发 布 者 
订阅 一 个 
Flow.Subscriber 
対象 * 

offer( ) : 该 方法 以 
异步 方式 调用 其 
onNext( ) 方法 ， 向 每 
个 订阅 者 发 布 一 个 条 


submit( ) : MAL 
异步 方式 调用 其 
onNext( ) 方法 ， 向 每 
i a ae DER 
资源 对 任何 订阅 者 
都 不 可 JET, 巡行 不同 
ATRAE o 
estimateMaximumL 
ag() : 该 方法 对 发 布 
首 已 生成 但 尚未 被 已 订 
阅 AY] 阅 者 使 J 的 条 
进行 估计 。 

ca 
emand(): 该 方法 对 
消费 者 已 请 求 但 是 发 布 
者 尚未 生成 的 条 目 数 进 
行 估计 。 


getMaxBufferCapa 
city( ) : 该 方法 返回 
每 个 订阅 者 的 最 大 缓 ; 
x o 
getNumberOfSubsc 
ribers(): 该 方法 返 
可 订阅 者 的 数量 。 
hasSubscribers() 
: 该 方法 返回 一 个 布尔 
直 ， 该 值 用 于 指示 发 布 
者 是 否 有 订阅 者 。 
close(): 该 方法 调 
当前 发 布 者 的 所 有 订 
阅 者 的 
onComplete() 方 
法 。 

isClosed(): 该 方 
法 返回 一 个 布尔 值 ， 用 
于 指示 当前 发 布 者 是 否 
已 关闭 。 


10.2 第 一 个 例 
子 : 面向 事件 通知 
的 集中 式 系统 


PR 


N 


ン 


该 示例 将 实现 一 个 系统 ， 把 


事件 生成 器 的 条 


AH 
os 


事件 的 消费 者 。 我 们 将 使 


SubmissionPublisher 


类 实现 事件 的 生产 者 和 消费 


者 之 间 的 通信 。 


10.2.1 Event 类 


该 类 存储 了 每 个 条 目的 信 


性 


必须 将 这 三 个 忆 


o 


= msg 属性 ， 用 于 在 


a source BE, HF 


每 个 条 目 包含 了 三 个 


um 


Em 


Event 对 象 中 存储 消 


o 


Do 


a 


储 生成 Event 対象 的 
美的 名 称 ・ 


= date 属性 ， 用 于 存储 


Event 生成 的 日 期 


性 声明 为 


H 


private， 并 且 在 该 类 中 包含 


相应 的 get ( ) 方法 和 
set() 方法 。 


10.2.2 Producer 类 


我 们 将 使 用 该 类 实现 生成 事 
件 的 任务 ， 这 些 任务 将 通过 
SubmissionPublisher 
对 象 发 送 给 消费 者 。 该 类 实 
HL Runnable 接口 ， 并 且 
存储 了 两 个 属性 。 


= publisher 属性 : 该 

属性 存储 
SubmissionPublis 
her 对 象 ， 将 事件 发 送 
给 消费 者 。 

= name 属性 : 该 属性 存 
储 了 生产 者 的 名 称 。 


使 用 该 类 的 构造 函数 初始 化 


这 两 个 属性 。 


EEI 


public class Producer 
implements Runnable { 


private 
SubmissionPublisher<Event 
> publisher; 

private String name; 


public 
Producer (SubmissionPublis 
her<Event> publisher, 
String name) { 
this.publisher = 
publisher; 
this.name = name; 


} 


‘Ria, 突 現 run( ) 方法 。 
该 方法 中 ， 生 成 10 个 事 

在 一 个 事件 和 下 一 事件 
] ， 随 机 等 待 一 个 随机 秒 
数 (0 到 10 之 间 ) 。 该 方法 
的 源 代码 如 下 : 


@Override 
public void run() { 


Random random = new 
Random(); 


for (int i=0 ; i < 10; 
i++) £ 
Event event = new 
Event(); 
event.setMsg("Event 
number "+i); 


event.setSource(this.name 


); 
event.setDate(new 
Date()); 


publisher.submit(event); 


int number = 
random.nextInt (10); 


try { 


TimeUnit .SECONDS.sleep(nu 
mber); 

} catch 
(InterruptedException e) 


{ 


e.printStackTrace(); 


} 


10.23 Consumer É 


現在 . 在 Consumer KH 
现 事 件 的 消费 者 。 这 个 类 实 
现 了 采用 Event 类 参数 化 
的 Flow.Subscriber 接 
， 因 此 必须 实现 该 接口 提 
共 的 四 种 方法 o 


首先 ， 声 明 两 个 属性 。 
» name 5H 


， 用 于 存储 
消费 者 的 名 称 。 
= subscription 属 
性 ， 用 于 存储 
Flow.Subscriptio 
n 实例 ， 该 实例 负责 管 
理 消费 者 与 生产 者 之 间 


PT 


m 
au 


使 用 该 类 的 构造 函数 初始 化 
name 属性 ， 如 以 下 代码 片 


段 所 示 : 


public class Consumer 
implements 
Subscriber<Event> { 


private String name; 
private Subscription 
subscription; 


public Consumer (String 
name) { 
this.name = name; 


} 


现在 ， 实 现 
Flow.Subscriber 接 
的 四 种 方法 。 
onComplete() 方法 和 
onError() 方法 只 将 信息 
显示 到 控制 台 。 


@Override 
public void onComplete() 


this.showMessage("No 
more events"); 


} 


@Override 
public void 
onError(Throwable error) 


this.showMessage("An 
error has ocurred"); 


error.printStackTrace(); 


} 


当 消 费 者 希望 订阅 其 通知 


SubmissionPublisher 
类 将 调用 onSubscribe() 
方法 ， 作 为 参数 传递 的 

Subscription 对 象 将 存 
放 在 subscription 属性 
中 ， 然 后 我 们 使 用 
request () 方法 向 发 布 者 
请 求 第 一 条 消息 。 最 后 ， 在 


控制 台 输 出 消息 。 


@Override 

public void 

onSubscribe (Subscription 
subscription) { 


this.subscription=subscri 
ption; 


this.subscription.request 


(1); 


this. showMessage("Subscri 
ption OK"); 


最 后 ， 对 于 每 个 事件 ， 
SubmissionPublisher 
类 都 将 调用 onNext( ) 方 
法 。 我 们 在 控制 台中 显示 该 
事件 的 信息 ， 使 用 


request() 方法 请 求 下 一 
个 事件 ， 并 且 调 用 辅助 方法 


proccesEvent() ° 


@Override 


public void onNext (Event 
event) { 


this.showMessage("An 
event has arrived: 
"+event.getSource()+": 


"+event.getDate()+": 
"+event.getMsg()); 


this.subscription.request 


(1); 


processEvent (event); 


} 


使用 processEvent( ) 方 
法 模拟 消费 者 处 理事 件 的 时 
间 。 随 机 等 待 0 到 3 秒 以 实现 
这 一 行为 。 


private void 
processEvent(Event event) 


{ 


Random random = new 
Random( ) ， 


int number = 
random.nextInt(3); 


try { 


TimeUnit.SECONDS.sleep(nu 
mber); 

} catch 
(InterruptedException e) 
{ 

e.printStackTrace(); 


} 


Tr 


最 后 ， 必 须 实 现 上 一 个 方法 
中 使 用 的 辅助 方法 
showMessage()。 它 显示 
了 参数 中 字符 串 的 内 容 ， 其 
中 含有 执行 消费 者 的 线程 的 
名 称 ， 以 及 消费 者 的 名 称 。 


private void 
showMessage (String txt) 


System.out.printin(Thread 


} 


.currentThread().getName( 
)+":"+this 


.name+":"+txt); 


10.24 Main É 


最 后 ， 实 现 Main 类 


含有 创建 并 运行 该 : 例 所 有 
组 件 的 main( ) 方法 。 


创建 以 下 元 素 。 


一 个 名 为 publisher 
的 
SubmissionPublis 
her 对 象 。 我 们 将 使 用 
该 对 象 将 事件 发 送 给 消 
费 者 。 
五 个 Consumer 対象 , 

它们 将 接收 发 布 者 创建 
的 所 有 事件 。 我 们 使 用 
subscribe() 方法 向 
发 布 者 订阅 消费 


两 个 Producer 対象 , 
它们 将 生成 事件 ， 并 使 
publisher 对 象 将 
FIA "我 
| 


ForkJoinPool 对 象 
执行 生产 者 对 象 ， 并 使 
jcommonPool( ) 方 
法 获取 
ForkJoinPool 对 
象 ， 并 且 使 用 
UR 方法 执行 
| 


public class Main { 


public static void 
main(String[] args) { 


SubmissionPublisher<E 
vent> publisher = new 
SubmissionPublisher() 


r 


for (int i = 0; i 
< 5; i++) { 

Consumer 
consumer = new 
Consumer ("Consumer 
"+i); 


publisher .subscribe(c 
onsumer); 


} 


Producer system1 
= new 
Producer (publisher, 
"System 1"); 
Producer system2 
= new 
Producer (publisher, 
"System 2"); 


ForkJoinTask<? 
>task1 = 
ForkJoinPool.commonPo 
ol().submit(system1); 

ForkJoinTask<? 
>task2 = 
ForkJoinPool.commonPo 
ol().submit(system2); 


然后 ， 给 出 一 个 while 循 
环 ， 该 循环 每 10 秒 输出 有 关 
任务 和 发 布 者 对 象 的 信息 ， 


do { 


System.out.printin("Main: 
Task 1: 
"+task1.isDone()); 


System.out.printin("Main: 
Task 2: 
"+task2.isDone()); 


System.out.printin("Publi 
sher: MaximunLag:"+ 


publisher .estimateMaximum 
Lag()); 


System.out.printin("Publi 
sher: Max Buffer 
Capacity: "+ 


publisher .getMaxBufferCap 
acity()); 


try { 
TimeUnit .SECONDS.sleep(10 


): 
} catch 
(InterruptedException e) 


{ 


e.printStackTrace(); 


} 


} while 
((!task1.isDone()) || 
(!task2.isDone()) || 


(publisher.estimateMaximu 
mLag() > 0)); 


am 11, ES 


。 执 行 第 一 个 生产 者 对 象 


的 任务 完成 执行 
= SU rs 

her 对 象 中 再 没有 未 处 
理事 件 。 使 用 
estimateMaximumL 
ne 方法 获取 该 数 


最 后 ， 使 用 
SubmissionPublisher 
対象 的 c1ose( ) 方法 通知 
订阅 者 执行 结束 。 


在 本 例 的 执行 过 程 中 ， 生 产 
者 使用 submit( ) 方法 将 事 
件 发 送 给 
SubmissionPublisher 
， M 
SubmissionPublisher 
又 将 事件 发 送 给 不 同 的 消费 
者 。 每 个 消费 者 都 使 用 
reduest() MALA 


pr 


下 面 的 第 截图 显示 ] 该 程 
序 执行 一 次 得 到 的 部 分 输 


出 。 


可 以 看 到 main( ) 方法 如 何 
输出 有 关 任 务 和 
publisher 対象 的 信息 , 
用 户 如 何 接收 不 同 的 事件 ， 
以 及 最 后 main( ) 方法 调用 
SubmissionPublisher 
对 象 的 close( ) 方法 时 ， 
如 何 输 出 由 其 调用 的 
onComplete() 方法 所 输 
出 的 消息 。 


10.3 第 二 个 例 
子 : 新 闻 系 统 


前 面 的 例子 使 用 了 
SubmissionPublisher 
类 ， 因 此 没有 实现 
Flow.Publisher 接口 和 
Flow.Subscription 接 
o 如 果 
SubmissionPublisher 
提供 的 功能 不 符合 需求 ， 那 
么 必须 实现 自己 的 发 布 者 和 
订阅 关系 。 


本 节 ， 你 将 学 习 如 何 实现 ; 
两 个 接口 ， 进 而 理解 反应 流 
闻 
阅 


的 规范 。 本 节 将 实现 - 
闻 系统 ， 其 中 每 则 新 闻 将 
二 个 类别 相关 联 TS 


10.3.1 News 类 


要 实现 的 第 一 个 类 是 News 
类 。 该 类 描述 了 要 从 发 布 者 
发 送 给 消费 者 的 每 则 新 闻 。 
我 们 将 存储 三 个 属性 。 


= category 属性 : 
存储 新 闻 类 别 的 int 
直 。 它 可 以 采用 数 人 
0 ヽ 1 ヽ a 表示 体 


育 、 世 界 、 经 济 和 科学 
类 别 的 新 mo 

m txt 属性 : 存储 新 闻 文 
本 的 String fÊ 


a date 属性 : 存 人 新 闻 
期 的 Date 1 


和 往常 一 样 ， 仍 然 要 将 这 些 

属性 声明 为 private， 并 且 仿 

MAB DA get () 方法 和 

De 法 获取 和 设置 这 
E [E = 


10.3.2 ”发 布 者 相关 的 类 


我 们 需要 四 个 类 来 实现 
Flow.Publisher 接口 和 
Flow.Subscription 接 
。 第 一 个 是 实现 了 
Flow.Subscription 接 
的 MySubscription 


E 


AS 保存 三 


= canceled 属性 : 用 于 
指示 订阅 是 否 被 
布尔 值 。 
= requested 属性 : 用 
于 存储 消费 者 所 请 求 的 
新 闻 条 数 的 
AtomicLong 值 
= categories 属性 : 
存储 与 当前 订阅 相 


关联 的 新 闻 关 另 的 一 组 
整 型 值 


LZ; 
Ik: 
Ir 
eT 


o 


El 


下 面 的 代码 展示 了 对 上 述 
性 的 声明 o 


— 


public class 
MySubscription implements 
Subscription { 

private boolean 
cancelled = false; 

private AtomicLong 
requested = new 
AtomicLong(0); 

private Set<Integer> 
categories; 


然后 ， 还 要 实现 
Flow.Subscription 接 
所 提供 的 两 个 方法 : 
cancel() 方法 和 

request() 方 法 。 


@Override 

public void cancel() { 
cancelled=true; 

} 


@Override 


public void request(long 
value) { 


requested.addAndGet (value 
); 
} 


cancel() 方法 只 是 将 
cancelled 属性 设置 为 

true, Mrequest() 方 
法 则 会 增加 requested F 
生 的 值 。 在 实际 例子 中 ， 


ョ | M 


那些 
的 值 进行 验 


作为 参数 


= isCanc 
方 法 返 
生 的 
ia 


我 们 还 
获取 和 设 | 


> 


现 了 其 
该 类 的 


M 


RE 


elled(): 


a 
H o 


uested(): 


r 


= decrea 


d(): 


decrem 


) 方法 减少 


reques 
(E > 
= setCat 


该 方法 


更 用 get( ) 方 


st il 


equested $; 
seRequeste 
更 用 
entAndGet( 


ted 属性 的 


egories() 


: 该 方法 设 定 


catego 
(E > 
n nascar 


ries EH 


E 的 


egory(): 


EDR [a 


布尔 值 ， | 


AD 
INAH 


All (一 个 


MY 


Yi) 


NT 


RE 


Ya 


阅 者 
订阅 
此 ， 


该 类 


= consum 
News 类 
Subscr 


联 。 


nsumerData 


用 该 类 存储 订 
IRRE 
X 


er 属性 


参数 化 日 
iber { 


将 存储 新 闻 消 费 


联 关系 。 


= et 


E: 
IE 


iption 


性 : 


MySubs 


H 
u 


然 后 , 
Pub 


与 发 布 者 
之 间 的 订阅 关系 相关 下 


出 了 区 到 和 设 
B9get( ) 方 法 


Rs 
IN T Runnable 接 


FIT] az 


IN 


cription 


EA 


这 


们 将 使 用 这 相 


ERA 


者 发 送 条 目 


。 我们 声明 了 


FE 务 向 


y, 
Y 


So 


属性 来 存储 与 消费 者 相关 
的 数据 、 消 费 和 发 布 者 之 


送 的 条 目 在 我 们 的 例子 中 


= consumerData & 
性 : 如 前 所 述 ， 
consumerData 対象 
分 别 存 储 了 
Subscriber 对 象 和 
MySubscription 对 
象 。 前 者 含有 各 条 目的 
消费 者 ， 后 者 包含 发 布 
者 与 发 布 者 之 间 的 订阅 


m news 属性 . SARE 
发 送 给 订阅 者 的 新 闻 的 
News 対象 > 

使 用 该 类 的 构造 函数 初始 化 
这 两 个 属性 。 


public class 
PublisherTask implements 
Runnable { 


private 
ConsumerDataconsumerData; 
private News news; 


public 
PublisherTask(ConsumerDat 
aconsumerData, News news) 


this.consumerData = 
consumerData; 
this.news = news; 


} 


然后 ， 实 现 run( ) 方法 。 
该 方法 将 检查 是 否 必须 将 
News 对 象 发 送 给 订阅 者 。 
它 将 检查 以 下 三 个 条 件 。 


= 订阅 没有 取消 : 使 用 
subscription 対象 

的 isCance11ed( ) 方 
法 。 
ni] Rs 更 多 的 条 
se pen 対象 
的 getRequested( ) 
方法 。 

News 对 象 的 类 别 存 在 
于 与 该 订阅 者 关联 的 类 


列 集中 : 使用 
subscription 対象 
的 hasCategory( ) 方 


法 。 
如 果 该 news 对 象 通过 了 这 
三 个 条 件 ， 那 么 使 用 
onNext() 方法 将 其 发 送 给 
订阅 者 。 我 们 还 使 用 了 
subscription 对 象 的 


decreaseRequested() 
方法 来 减少 该 订阅 者 请 求 的 
条 目 数 。 该 方法 的 源 代码 如 
下 : 


@Override 
public void run() { 

MySubscription 
subscription = 
consumerData.getSubscript 
ion(); 

if (! 
(subscription.isCanceled( 

) && 
(subscription.getRequeste 
d() > 0) 

&& 

(subscription.hasCategory 
(news.getCategory()))) て 


consumerData.getConsumer ( 
).onNext(news); 


subscription.decreaseRequ 
ested(); 


} 
} 
最 后 突 現 MyPub1isher 

。 该 类 实现 了 采用 News 
类 参数 化 的 


我 们 将 使 用 两 个 属性 来 实现 
该 类 的 行为 。 


= consumers 属性 : 一 


个 使 用 
ConsumerData 类 参 
数 化 的 
ConcurrentLinked 
Deque WR, AT 
储 该 发 布 者 的 所 有 订阅 
A HE E 。 

= executor 属性 : 一 个 

执行 


PublisherTask 对 象 
的 


ThreadPoolExecut 
or 対象 


使 用 该 类 的 构造 函数 初始 化 


这 两 个 属性 。 


public class MyPublisher 
implements 
Publisher<News> { 


private 
ConcurrentLinkedDeque<Con 
sumerData> consumers; 

private 
ThreadPoolExecutor 
executor; 


public MyPublisher() て 
consumer s=new 
ConcurrentLinkedDeque<> 
O; 
executor = 
(ThreadPoolExecutor )Execu 
tors.newFixedThreadPool 


(Runtime.getRuntime().ava 
ilableProcessors()); 


} 


然后 ， 实 现 
Flow.Publisher 接口 提 
供 的 subscribe( ) 方法 。 
该 方法 接收 想 要 订阅 该 发 布 
者 的 Subscriber 対象 作 
为 参数 。 创 建 一 个 新 的 
MySubscription 対象 
一 个 新 的 ConsumerData 
対象 (添加 到 消 費 者 的 数 】 
结构 ) ， 并 且 调 用 
Subscriber 対象 的 
onSubscribe( ) 方法 (其 
参数 为 MySubscription 
对 象 ) 。 


IH 


@Override 

public void 
subscribe(Subscriber<? 
super News> subscriber) { 


ConsumerDataconsumerData= 
new ConsumerData(); 


consumerData.setConsumer ( 
(Subscriber<News>)subscri 
ber); 


MySubscription 
subscription=new 
MySubscription(); 


consumerData.setSubscript 


ion(subscription); 


subscriber.onSubscribe(su 
bscription); 


consumers .add(consumerDat 
a); 


} 


然 后 , KUlpublish() 方 
法 。 该 方法 接收 一 个 News 
对 象 作 为 参数 ， 并 尝试 将 其 
发 送 给 该 发 布 者 的 所 有 订阅 
者 。 处 理 存储 在 
Consumers 数据 结构 中 的 
所 有 元 素 ， 创 建 一 个 新 的 
PublisherTask 对 象 ， 并 
使用 execute( ) 方法 在 执 
行 器 中 执行 它们 > 

如 果 发 生 错误 ， 将 对 
subscriber 対象 使 


onError( ) Fi, L 便 将 
错误 通知 给 订阅 者 。 


public void publish(News 
news) { 

consumers. forEach( 
consumerData -> { 


try { 


executor .execute(new 
Publisher Task (consumerDat 
a, news)); 

} catch (Exception e) 


consumer Data. getConsumer ( 
).onError(e); 


H); 
} 


最 后 , EMshutdown() 

方法 。 该 方法 caia 订 
凉 者 通信 结束 ， 并 且 完 成 内 
部 ThreadPoo1Executor 


的 执行 。 


public void shutdown() 


consumers.forEach( 
consumerData -> { 


consumerData.getConsumer ( 
).onComplete(); 
}); 
executor. shutdown( ) ， 
} 
} 


在 这 四 个 类 中 ， 我 们 实现 了 
该 示例 的 发 布 者 部 分 。 接 下 
来 介绍 消费 者 部 分 的 实现 。 


10.3.3 Consumer 类 


该 类 实现 了 
Flow.Subscriber 接 
， 并 且 实 现 了 新 闻 的 消费 
。 在 内 部 ， 它 使 用 了 三 个 


性 。 


Si 


1 


= subscription 
(oa ead 
MySubscription 对 
象 ， 它 存储 了 订阅 者 和 
发 布 者 之 间 的 订阅 关 


E 
E 


a 


a name 属性 : 一 个 存储 
订阅 者 名 称 的 String 
属性 。 


= categories 属性 : 


一 个 整 型 数值 集合 ， 存 


嵌 了 该 订阅 者 想 要 接收 
的 消息 的 类 别 。 


和 此 前 一 样 ， 使 用 该 > 
造 范 数 初始 化 这 些 属性 。 


的 构 


public class Consumer 
implements 
Subscriber<News> { 


private MySubscription 
subscription; 

private String name; 

private Set<Integer> 
categories; 


public Consumer(String 
name, Set<Integer> 
categories) { 
this.name=name; 
this.categories = 
categories; 


} 


现在 ， 要 实现 
Flow.Subscriber 接 
提供 的 方法 了 o 
onComplete() 方法 和 
onError() 方法 仅 在 控 第 


台 输 出 信息 。 


= 


@Override 
public void onComplete() 


System.out.printf("%s - 
%s: Consumer - 
Completed\n", name, 


Thread.currentThread().ge 
tName()); 
} 


@Override 

public void 

onError(Throwable 

exception) { 
System.out.printf("%s - 

%s: Consumer - Error: 

%s\n", name, 


Thread.currentThread().ge 
tName(), 


exception.getMessage()); 


onSubscribe( ) 方法 接收 
Subscription 对 象 作为 


改 性 中 存储 该 对 象 ， 并 使 用 
与 此 订阅 者 相关 联 的 类 别 更 
新 该 属性 。 最 后 ， 使 用 


request() 方法 请 求 第 一 
个 News 对 象 。 


@Override 

public void 

onSubscribe(Subscription 

subscription) { 
this.subscription = 

(MySubscription) subscript 

ion; 


this.subscription.setCate 
gories(this.categories) / 


this.subscription. request 
(1); 
System.out.printf("%s: 
Consumer - 
Subscription\n", 


Thread.currentThread().ge 
tName()); 
} 


最 后 实现 onNext( ) 方法 ， 

该 方法 接收 一 个 News 対象 
作为 参数 ， 在 控制 台 输 出 该 
对 象 的 信息 ， 并 且 使 用 
request() 方法 请 求 下 一 
个 对 象 。 


@Override 

public void onNext (News 

item) { 
System.out.printf("%s - 

%s: Consumer - News\n", 

name, 


Thread.currentThread().ge 

tName()); 
System.out.printf("%s - 

%s: Text: %s\n", name, 


Thread.currentThread().ge 
tName(), item.getTxt()); 

System.out.printf("%s - 
%s: Category: %s\n", 
name, 


Thread.currentThread().ge 
tName(), 


item.getCategory()); 
System.out.printf("%s - 
%s: Date: %s\n", name, 


Thread.currentThread().ge 
tName(),item.getDate()); 


subscription. request(1); 


} 


10.3.4 Main É 


最 后 , 使用 main( ) 方法 实 
现 Main 类 ， 测 试 在 该 示例 
实现 的 所 有 类 o 


创建 一 个 MyPublisher 对 
象 和 三 个 consumer WR, 
如 下 所 示 。 


II 


= Consumer1 対象 只 接 
八 运动 方面 的 新 闻 。 
= consuner 対象 只 接 
妇 关 于 科学 的 新 闻 。 
= consumer3 対象 只 接 
放 四 和美 列 的 新聞 o 


创建 这 些 对 象 并 且 将 它们 订 
阅 到 发 布 者 。 


public class Main { 


public static void 
main(String[] args) { 


MyPublisher 
publisher=new 
MyPublisher(); 


Subscriber<News>consumer1 
, Consumer2, consumer3; 


Set<Integer> sports = 
new HashSet(); 


sports.add(News.SPORTS); 
consumer1=new 

Consumer( "Sport 

Consumer", sports); 


Set<Integer> science 
= new HashSet(); 


science.add(News.SCIENCE) 
i 

consumer2=new 
Consumer ("Science 
Consumer", science); 


Set<Integer> all = 
new HashSet(); 


all.add(News.ECONOMIC); 


all.add(News.SCIENCE); 
all.add(News.SPORTS); 
all.add(News.WORLD); 
consumer 3=new 
Consumer("A11 Consumer", 
all); 


publisher.subscribe(consu 
mer1); 


publisher .subscribe(consu 
mer2); 


publisher .subscribe(consu 
mer3); 


System.out.printf("Main: 
Start\n"); 


Ska, 使用 pub1isher 对 
象 将 四 则 新 闻 个 类别 各 
一 条 ) 发 送 给 消费 者 。 每 则 
新 闻 之 间 间 隔 1 秒 钟 。 


News news=new News(); 
news.setTxt ("Basketball 
news"); 

news .setCategory(News.SPO 
RTS); 

news.setDate(new Date()); 


publisher.publish(news); 


try { 
TimeUnit.SECONDS.sleep(1) 


A 
} catch 
(InterruptedException e) 


e.printStackTrace(); 


} 


news=new News(); 
news.setTxt ("Money 
news"); 
news.setCategory(News.ECO 
NOMIC); 

news.setDate(new Date()); 
publisher.publish(news); 


try { 


TimeUnit .SECONDS.sleep(1) 
7 

} catch 
(InterruptedException e) 


{ 
} 


news=new News(); 
news.setTxt ("Europe 
news"); 
news.setCategory(News.WOR 
LD); 

news.setDate(new Date()); 
publisher .publish(news) ; 


e.printStackTrace(); 


try { 


TimeUnit .SECONDS.sleep(1) 


, 
} catch 
(InterruptedException e) 


e.printStackTrace(); 


} 


news=new News(); 
news.setTxt("Space 
news"); 
news.setCategory(News.SCI 
ENCE); 

news.setDate(new Date()); 
publisher.publish(news); 


最 后 , 使用 pub1isher 对 
象 的 shutdown( ) 方 法 完 
成 系统 所 有 要 素 的 执行 。 


publisher.shutdown(); 


System.out.printf("Main: 
End\n"); 


} 
} 


下 面 的 屏幕 截图 显示 了 本 例 
执行 时 的 一 部 分 输出 结果 。 
可 以 看 到 consumer3 対象 
接收 了 所 有 新 闻 ， 但 是 
consumer1 和 consumer2 


对 象 只 接收 相关 类 别 的 新 


id Spinjavaw.exe (4 abr. 2017 0:44 


00:44:28 CEST 2017 
3 

Apr 04 00:44:28 CEST 2017 

ed 


ted 


10.4 ”小结 


任 本 章 中 , 作 了 了解 到 Java 9 
是 如 何 实现 反应 流 规范 的 。 
它 为 带 有 非 阻 塞 回 压 的 异步 
处 理 定义 了 标准 。 该 标准 
于 以 下 三 个 要 素 。 


= 信息 的 发 布 者 。 

" 该 信息 的 一 个 或 多 个 订 
阅 者 。 

" 发 布 者 和 消费 者 之 间 的 
订阅 关系 。 


Java 提 供 了 三 个 接口 来 实现 


= Flow.Publisher 接 
口 ， 用 于 实现 信息 的 发 


e SH 5 


布 者 < 
= Flow.Subscriber 
接口 ， 用 于 实现 该 信息 


的 订阅 者 (消费 者 ) < 
= Flow.Subscriptio 
n 接口 ， 用 于 实现 发 布 
者 和 订阅 者 之 间 的 订阅 


Java 还 提供 了 一 个 实用 工具 
类 ， 即 实现 Publisher 接 


SubmissionPublisher 
类 ， 如 果 应 用 程序 有 默认 行 
为 ， 也 可 以 使 用 它 


ENE o 
本 章 实现 了 两 个 示例 ， 这 两 
实现 可 用 于 Java 中 的 反应 


流 。 首 先 实现 了 一 个 事件 通 
知 系 统 ， 该 系统 实现 ] 
Subscriber 类 ， 使 用 
SubmissionPublisher 
类 将 事件 发 送 给 订阅 者 。 然 
实现 了 一 个 新 闻 系 统 ， 它 
现 了 所 有 必 备 元 素 。 


介绍 可 以 在 并 
应 用 程序 中 使 用 的 数据 结 
构 和 同步 机 制 。 


第 11 章 探 
究 并 发 数据 结 
构 和 同步 工具 


系 ， 例 如 一 个 并 发 任务 必须 
等 待 另 一 个 任务 完成 。Java 


并 发 API 包 含 了 像 
synchronized 关键 字 这 
样 的 基本 同步 机 制 ， 也 包含 
了 一 些 非 常 高 层 的 工具 ， 例 


如 Cyc1icBarrier 类 以 及 
在 第 6 章 中 用 到 的 Phaser 
类 等 。 


本 章 将 介绍 以 下 两 个 主题 


”并 发 数据 结构 。 
= 同步 机 制 。 


11.1 并 发 数据 结 
构 


如 果 不 同 的 线程 可 以 修改 存 
放 在 某 个 唯一 数据 结构 中 区 
数据 ， 就 必须 使 用 同步 机 制 
保 扩 在 该 数据 结构 之 上 的 修 


<p" 


Sn ER 
Ba o 


TEN HERE A -F Hk 
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SH HEN» 
m= 


Es 
Ad ン 


EM e 


11.1.1 阻塞 型 数据 结构 
和 非 阻 塞 型 数据 结构 


Java 并 发 API 中 提供 了 两 条 
并 发 数据 结构 。 


を 7 
的 线程 就 会 被 阻塞 ， 
到 可 以 执行 该 操作 为 


. 非 阻塞 型 数据 结 H : 
这 种 类 型 的 数据 结构 提 


共 了 插入 数据 和 删除 数 
据 的 方法 ， 当 无 法 立即 
执行 操作 时 ， 返 回 一 个 
特定 值 或 者 抛 出 一 个 异 
常 o 


时 ， 非 阻塞 型 数据 结构 会 
个 与 之 等 效 的 阻塞 型 数 
据 结构 。 Bilt, 

ConcurrentLinkedDequ 


e ee 


Linkep1ockingpeque 
类 则 是 等 效 的 阻塞 
型 数据 结构 。 pee 
构 的 一 些 方法 具有 非 阻 塞 型 
数据 结构 的 行为 例如， 
Deque 接口 定义 了 
po11First( ) 方法 ， 如 果 
双 端 队列 为 空 ， 该 方法 并 不 
会 阻塞 而 是 返回 hull 
直 。 另 一 方面 ， 
getFirst() 方法 在 这 
情况 下 会 抛 出 异常 。 每 个 阻 
SEPLAN SAT Dá 
方法 。 


11.1.2 并 发 数据 结构 
Java 集 合 框架 (Java 


collections framework, 

JCF) 提供 了 一 个 包含 多 
可 用 于 串 行 编程 的 数据 结构 
集合 。Java 并 发 API 对 这 些 
据 结构 进行 了 扩展 ， 提 供 
另外 一 些 可 用 于 并 发 应 用 
Ee 和 和 和 包括 如 下 
项 。 


MN 
II 


au ER 


ト 
FE 


Ri 展 了 JCF 提 9 oh 


3%) 


面 将 介 


] 
Ein 体 实 现 。 
绍 你 会 在 并 发 应 用 


中 用 
a. 接口 


元 
数据 
的 接 


到 的 接口 和 类 。 


介 绍 一 


发 
重要 


秒 构 实现 的 最 
口 。 


= BlockingQueue 


队列 是 一 种 线性 


数据 结构 ， 人 允许 在 
队列 的 末尾 插入 元 
素 且 从 队列 的 起 始 


结构 ， 第 一 个 j 


(FIFO) 型 数据 


HA 


队列 的 元 素 将 


一 个 被 处 理 的 元 


AN 


是 第 


JCF X T Queue 


接口 ， 该 接口 定义 


了 
基本 操作 。 


作 的 方法 。 


在 队列 中 执行 的 
该 接口 
提供 了 实现 如 下 j 


要 检索 革 个 空 
! 的 元 素 ) > 


果 你 


队列 


false 或 
null + 


下 表 包 含 了 每 个 操 
和 所 对 应 的 方法 名 


称 9 


返 回 特 
抛 出 异常 | 殊 值 


add() offer() 


remove() |poll() 


SEHE | > Bh) TE 


element() | peek() 


SEIENE 


BlockingQueue 
接口 扩展 了 Queue 
RO, 添加 本当 操 
作 不 可 执行 时 阻塞 
调用 线程 的 方法 。 


操作 阻塞 
HA put() 
检索 并 删除 |take() 
检索 但 不 删 
除 


N/A 


BlockingDeque 


与 队列 一 样 ， 双 端 
队列 也 是 一 种 线 
性 数据 结构 ， 但 是 
允许 从 该 数据 结构 


外 ， 它 还 提供 了 从 
端 执行 插入 、 检 
索 且 删除 、 检 索 但 


不 删除 等 操作 的 方 


法 。 


抛 出 异常 


返 [ 


add 
add 


First() > | offel 
Last( ) Sof 


rem 
ip 


TRE] PERE] > BA] TE 


get 
get 


Y 
AP E 


= 


oveFirst() | po11I 
emoveLast( ) | > po 


First() > | peekl 
Last( ) ` pe 


BlockingDeque 
接口 扩展 了 Deque 


接口 


作 无 法 执行 时 阻塞 


添加 了 当 操 


调用 线程 的 方法 。 


操作 


阻塞 


putFirst() 
> putLast() 


takeFirst() 
` takeLast() 


N/A 


ConcurrentMap 


map 


《有 时 也 叫 关 


MA 


的 数 3 


提供 了 Map 接 


许 存储 ( 键 ， 值 ) 对 


E) 是 一 种 允 


BHR) © JCF 


已 定义 了 使 用 map 


的 基本 操作 。 这 些 
方法 包括 如 下 几 


( 键 ， 值 ) 对 。 


e containsKe 


y() 和 


containsVa 
lue(): 4 


H 
E map 中 包含 


ME 
Ea 
EF 
= 
fem 
D 


该 接口 在 Java 8 中 
做 了 修改 ， 包 含 了 
下 述 新 方法 。 本 章 
fe PRAIA Ai 
到 如 何 使 用 这 些 方 
法 。 


e forEach() 
: 该 方法 针对 
map 的 所 有 元 
FMT AA FE ER 
compute() 
computeIfA 
bsent( ) 和 
computeIfP 
resent(): 
这 些 方法 允许 
指定 一 个 函 
于 计算 与 某 个 
键 相 关 的 新 


e merge(): 


该 方法 允许 你 


ConcurrentMap 
扩展 了 Map 接口 ， 
为 并 发 应 用 程序 提 
供 了 相同 的 方法 。 
WIER, Java 8 
和 Java9 中 (5 
Java 7 不同 ) , 
ConcurrentMap 
接口 并 未 在 Map 接 
口 的 基础 上 增加 新 
方法 。 


= TransferQueue 


B. E 


Java 并 发 API 为 之 前 描 


该 接 


扩展 了 


BlockingQueue 


日 增加 了 


. tryTransfe 


r( ) : 如果 有 
消费 者 等 待 ， 


1 


则 
素 
方 


传输 一 个 元 
。 否则 ， 该 


法 返回 


false (É, 


并 


= 


不 将 该 元 
插入 队列 。 


述 的 接口 提 


I, 


Pi ZF 5 


~ 


有 
ER 
dl 


些 实现 
有 用 的 功 


= Linke 
gQueu 


该 类 实 ] 
Block 
ng 
ES 


増加 em > 
— y 


征 ， 
则 增加 了 新 
能 。 


dBlockin 
e 


中 本 
ingQueue 


T Queue ` 


Colle 
Itera 


= Concu 


ction 和 
ble 接口 。 


rrentLin 


kedQueue 


= LinkedBlockin 
gDeque 


该 类 实现 了 
BlockingDeque 
接口 ， 提 供 了 一 个 
具有 阻塞 型 方法 的 
双 端 队列 ， 它 可 以 
有 任意 有 限 数量 的 
LinkedBlockin 
gDeque 具有 比 
LinkedBlockin 
gQueue 更 多 的 功 
能 , PIE 二 开销 更 
大 。 因 此 ， 
端 队列 特性 不 必要 
的 场合 使 用 
LinkedBlockin 
gQueue 类 。 


= ConcurrentLin 
kedDeque 


该 类 实现 了 Deque 
接口 ， 提 供 了 一 个 
线程 安全 的 无 限 双 
端 队列 ， 它 允许 在 
双 端 队列 的 两 端 添 
加 和 删除 元 素 。 它 
BUA Lt 
ConcurrentLin 
kedQueue 更 多 的 
功能 ， 但 与 
LinkedBlockin 
gDeque 相同 , 1% 
类 开销 更 大 。 


= ArrayBlocking 
Queue 


该 类 实现 了 

BlockingQueue 
接口 ， 基 于 一 个 数 
组 提供 了 阻塞 型 队 
列 的 一 个 实现 ， 可 
以 有 有 限 个 元 素 。 


它 还 实现 了 Queue 
Collection 
和 Tterab1e & 
口 。 与 基于 数组 的 
非 并 发 数据 结构 
(ArrayList 和 
ArrayDeque ) 
不同 , 
ArrayBlocking 
Queue 按照 构造 
函数 中 所 指定 的 固 
定 大 小 为 数组 分 配 
空间 ， 而 且 不 可 再 
调整 Ns 


DelayQueue 


该 类 实现 了 
BlockingDeque 
接口 ， 提 供 了 一 个 
蕊 有 阻塞 型 方法 和 
限 数目 元 素 的 队 
列 实现 。 该 队列 的 
元 素 必 须 实现 
Delayed 接 
丸 此 它们 必须 实现 
getDelay() 方 
? 


法 。 如 果 该 方法 返 
可 一 个 负 值 或 0， 
那么 延 时 已 过 期 ， 


可 以 取出 队列 的 元 
ae 于 队列 首部 
寸 负数 值 最 


NORR. 


LinkedTransfe 
rQueue 


该 类 提供 了 一 个 
TransferQueue 
ZORKI o TR 


PriorityBlock 
ingQueue 


该 类 提供 了 


BlockingQueue 


接口 的 一 个 实现 ， 
在 该 类 中 可 以 按照 
元 素 的 自然 顺序 选 
择 元 素 ， 也 可 以 通 
过 该 类 构造 函数 
指定 的 比较 器 选择 
元 素 。 该 队列 的 
部 由 元 素 的 排列 顺 
序 决定 。 


ConcurrentHas 
hMap 


该 类 提供 了 
ConcurrentMap 
秋口 的 一 條 実現 é 


T Java 8 Map fã 
口 新 增加 的 方法 之 
外 ， 该 类 还 增加 了 


e search() > 
searchEntr 
ies() > 
searchKeys 
() 和 
searchValu 
es(): 这 些 
方法 允许 对 

( 键 ， 值 ) 对 、 

键 或 者 值 应 用 

搜索 画 数 。 这 


ela 


结果 

e reduce() > 
reduceEntr 
ies() > 
reduceKeys 
() 和 
reduceValu 
es(): 这 些 
方法 允许 应 用 
AS 
reduce( ) 操 


哈 希 表 作 为 流 
人 处理 (参考 第 
9 章 ， 获 取 有 
Xreduce() 
方法 的 详细 内 
容 ) 。 


ConcurrentHashMa 


p 针对 那些 依赖 其 线程 


4 性 而 非 同步 入 的 


forEachValue 、 


forEachKey 等 , {E 


是 此 


11.1 


RT, 
在 
发 
特性 


a. 


处 不 再 袭 述 。 


3 使用 新 特性 


你 将 学 会 如 何 使 
Java 8 和 Java 9 
ATES | AWB 


o 


as. 


SE 


ConcurrentHas 


hMap 的 第 一 介 例 
子 


第 9 章 实 现 了 一 个 
应 用 程序 ， 可 以 对 
一 个 由 20 000 个 亚 
马 逊 商品 构成 的 数 
据 集 进 行 搜 索 。 我 
门 从 亚马逊 商品 联 
合 采购 网 络 元 数据 


=| SE ER HID a 
> yy En Ep $ 
gigli 
wy 
IN 
Sr 
A 
Tr 
IÈ 


(の 


NAP 网 站 
的 “Amazon 
product co- 
purchasing network 
metadata” FRIZET 
据 集 。 在 该 例子 
':， 我 们 采用 了 一 


productsByBuy 
er 的 
ConcurrentHas 
hMap<String, 
List<Extended 


Product>> 存 放 


AAA HY 
H 


该 map 的 键 


品 的 列表 。 本 市 


该 map 学 习 


rrentHas 


hMap 类 的 新 方 


= forEach() 
方法 


该 方法 允许 你 
天 


Concurrent 


每 个 ( 键 ， 值 ) 
对 都 要 执行 的 


本 的 ] 
ト 内 有一 條 
闵 以 lambda 
表达 式 表示 的 
BiConsumer 
函数 。 例 如 ， 
尔 可 以 使 用 该 
方法 打印 每 个 
用 户 购买 了 多 
少 商品 , HR 


码 如 下 : 


as im: 
N 


productsByBu 
yer.forEach( 
(id, list) - 
> 


System.out.p 
rintln(id+": 


"+list.size( 


)) ): 


这 个 基本 版 的 
forEach( ) 
方法 是 常规 
Map 接口 的 一 


表达 式 ， 其 中 
id 是 元 素 的 
键 ， 而 list 
是 元 素 的 值 。 


在 另 一 个 例子 
H, 使用 」 
forEach( ) 
方法 来 计算 用 
户 的 平均 评 
级 。 


productsByBu 
yer.forEach( 
(id, 1ist) - 
> 


double 
average=list 
.Stream( ) .ma 
pToDouble(it 
em -> 
item.getValu 
e()) 


.average().g 
etasDouble() 


i 
System.out.p 
rintln(id+": 
"+average); 


r 


在 这 段 代码 
中 ， 也 使 用 


一 个 lambd 


m I o 
vit 


EH 
Ef a 
HË 
n E 
+ 
fin I 


ERÊ 


= 
az 
N 
到 
NY o 


JH 
UN 
= 
N 
= 
En 
> 
二 一 


vt 

y 

Mm 
y 
k 


e forEac 
h(para 
llelis 
mThres 
hold, 
action 
) : 这 是 


E 
应 用 程序 


hEntry 
(paral 
lelism 
Thresh 
old, 

action 
) : 该 版 
ASE 
版本 相 
似 ， 只 不 
JR FA 
Actions: 
Consum 
er 接口 
的 一 个 实 
现 ， 它 接 
收 一 个 


lambda 
达 式 。 

forEac 
hKey(p 
aralle 
lismTh 
reshol 


情况 下 
ActioníX 


DFA 
Concur 


rentHa 
shMap 
的 鍵 o 
e forEac 
hValue 
(paral 
lelism 
Thresh 
old, 
action 
) : 该 版 
本 与 前 一 
版 本 相 
似 ， 只 不 
过 在 这 种 
情况 下 
ActionfX 
必用 于 
Concur 
rentHa 
shMap 
的 值 。 
当前 的 实现 采 
用 公共 2 
ForkJoinPo 
ol 实例 执行 
并 行 任务 。 
search() 方 
法 
该 方法 对 
Concurrent 
HashMap 的 
所 有 元 素 均 应 
一 个 搜索 函 
数 。 该 搜索 函 
数 可 以 返回 一 
个 空 值 或 
个 不 同 于 
null 的 值 。 
search( ) 方 
法 将 返回 搜索 
函数 所 返回 的 
第 一 个 非 空 


e parall 
elismT 
hresho 
ld: 如 


e search 
Functi 
on: 这 
FE 
BiFunc 

tion & 

口 的 一 个 

实现 ， 可 


网 如 ， 你 可 上 
采用 该 画 数 查 


ExtendedProd 
uct 
firstProduct 
=productsByB 
uyer.search( 
100, 


(id, 
products) -> 


for 
(ExtendedPro 
duct 
product: 
products) { 
if 
(product.get 


Title().toLo 
werCase().co 
ntains("java 


(firstProduc 
t!=null) { 


System.out.p 
rint1n(first 
Product .getB 
uyer()+":"+ 


firstProduct 
.getTitle()) 


} 


本 例 使 用 100 
VER 
parallelis 
mThreshold 


eh 


实现 搜索 未 
Bu > TEA 


e search 
Entrie 
s(para 
llelis 
mThres 


hold, 
search 
Functi 
on): 在 


这 jm 


J 


= » 
AUL 
T, ER 
函数 是 


Keys(p 
aralle 
lismTh 
reshol 


画 数 仅 应 


Concur 
rentHa 
shMap 
的 键 。 
e search 
Values 
(paral 
lelism 
Thresh 


画 数 仅 应 


Concur 
rentHa 
shMap 
的 值 。 


= reduce() 方 
法 


该 方法 和 
Stream 框 架 提 
供 的 

reduce( ) 方 
法 相似 ， 但 是 
在 这 种 情况 
下 ， 你 将 直接 
xy 
Concurrent 
HashMap 的 
元 素 进 行 操 
作 。 该 方法 接 
收 以 下 三 个 参 
数 。 


。 parall 
elismT 
hresho 
ld: 如 
Ae 


Concur 


e transf 
ormer 
该 参数 


lambda% 
Ro EHR 
收 一 个 键 


r: 该 参 
BiFunc 
tion & 
口 的 一 个 


lambda 函 
Ro ER 


作为 该 方法 的 
例子 之 一 我 


transforme 
r 。 它 是 一 个 
BiFunction 
接口 ， 用 作 
reduce() 5 
法 的 
tramsforme 
r 元素 


BiFunction<S 
tring, 
List<Extende 
dProduct>, 
List<Extende 
dProduct>> 


transformer 
= (key, 
value) - 
>value.strea 
m().filter(p 
roduct -> 


product .getV 
alue() == 
1).collect(C 
ollectors.to 
List()); 


ExtendedPr 
oduct 対象 
列表 (含有 该 
| PSEA 
Et 


第 二 个 变量 是 
约 简 器 

BinaryOper 
ator, (EH 
reduce() 方 
法 的 约 简 器 画 


BinaryOperat 
or<List<Exte 
ndedProduct> 
> reducer = 
(list1, 
list2) ->{ 


list1.addA11 

(list2); 
return 

list1; 

y; 


该 约 简 器 接收 
两 个 
ExtendedPr 
oduct 列表 
作为 参数 ， 
使 用 
addA11( ) 方 
法 将 它们 连接 


成 一 个 列表 。 


现在 ， 只 需要 
实现 对 
reduce( ) 方 
法 的 调用 。 


List<Extende 
dProduct> 

badReviews=p 
roductsByBuy 
er.reduce(10 


r 


transformer, 
reducer); 

badReviews.f 
orEach(produ 


ct -> { 


System.out.p 
rint1n(produ 
ct.getTitle( 
JPA 


product .getB 
uyer ()+":"+p 
roduct.getVa 
lue()); 

Hi 


还 有 其 他 一 些 
版 本 的 
reduce( ) 方 


法 ・ 


e reduce 
Entrie 
s() > 
reduce 
Entrie 
sToDou 
ble() 
reduce 
Entrie 
sToInt 
() 和 
reduce 
Entrie 
sToLon 


double 
ee! 
int 和 一 
“long 
(E > 
reduce 
Keys() 


double 
| 
int 和 一 
“long 
(E > 
reduce 
ToInt( 
)> 
reduce 
ToDoub 
le() 和 
reduce 
ToLong 


double 


和 一 个 
long 

(E > 

reduce 
Values 
O` 

reduce 
Values 
ToDoub 
le() ` 
reduce 
Values 
ToInt( 
) 和 

reduce 
Values 


返回 一 个 
double 
A 
int 和 一 
“long 


值 。 


= compute() 


该 方法 (在 
义 ) 接收 一 
TUR A EAM 


BiFunction 


= 
o% 
で 
>a 


= 
ae 

f 
a 


O 
O 
5 
O 
zc 
Dss 
Ds 
D 
=) 
= 


II 
O 
= 
在 一 


该 画 数 
元 素 的 
则 将 接 


EE 
5H 
rem À 

DA E 5 


Concurrent 
HashMap ; 
如 果 返 回 值 为 
null, ， 则 说 
明 当 前 项 已 存 
在 ， 那 么 就 删 
除 当 前 项 。 请 
注意 , 在 
BiFunction 
执行 期 间 ， 将 
锁 闭 一 个 或 几 
map 记 录 。 


BiFunction 
的 执行 时 间 
ange E 


LongAdder 
新 型 原子 变 


Du 


Concurrent 
HashMap , 
名 为 


counter > 


ConcurrentHa 
shMap<String 
, LongAdder> 
counter=new 
ConcurrentHa 
shMap<>(); 


PANAS Bi E 
计算 得 到 的 所 


badReviews 
Concurrent 
LinkedDequ 
e 元素 , 并 


LongAdder 


o 


badReviews.f 
orEach(produ 
ct -> { 


counter .comp 
uteIfAbsent( 
product .getT 
itle(), 

title -> new 


LongAdder ()) 
.1ncrement( ) 
7 

}); 

counter ,forE 


ach((title, 
count) -> { 


System.out.p 
rintin(title 
+": "+count); 


y; 


Concurrent 
HashMap 的 
另 一 个 例子 


Concurrent 
HashMap 类 


Concurrent 
HashMap 中 
不 存在 该 键 ， 
则 直接 插入 该 
键 。 如 果 
Concurrent 
HashMap 中 
存在 该 键 ， 风 


那 一 个 应 该 与 
新 值 相 关联 。 
该 方法 接收 三 
个 参数 。 


。 要 合并 的 


该 函数 返 
可 的 值 与 


不 会 被 并 
发 执行 。 


例如 ， 我 们 
照 评论 的 年 
字段 对 前 面 
到 的 亚马逊 的 
20 000 个 商品 
进行 了 划分 。 
对 于 每 一 年 ， 
均 加 载 


Concurrent 


Si 


Ti 


而 其 值 为 评论 


1995 年 和 1996 
年 的 评论 。 


Path 
path=Paths.g 
et("data\\am 
azon\\1995.t 
xt"); 
ConcurrentHa 
shMap<BasicP 
roduct, 
ConcurrentLi 
nkedDeque<Ba 
sicReview>> 


products1995 
=BasicProduc 
tLoader.load 
(path); 
showData(pro 
ducts1995); 


path=Paths.g 
et("data\\am 
azon\\1996.t 
xt"); 
ConcurrentHa 
shMap<BasicP 
roduct, Concu 
rrentLinkedD 
eque<BasicRe 
view>> 


products1996 
=BasicProduc 
tLoader.load 
(path); 
System.out.p 
rint1n(produ 
cts1996.size 
O); 
showData(pro 
ducts1996); 


Concurrent 
HashMap & 


并 为 一 个 ， 则 
可 以 使 用 下 画 
的 代码 。 


products1996 
.ForEach(10, 
(product, 

reviews) -> 


products1995 
.merge(produ 
ct, reviews, 
(reviews1, 

reviews2) -> 


System.out.p 
rintin("Merg 
e for: 
"+product.ge 
tAsin()); 


reviews1.add 
All(reviews2 


)i 
return 
reviews1; 
H; 
}): 


我 们 处 理 
Products1996 
Concurrent 
HashMap 的 
所 有 元 素 ， 并 
对 每 个 
( 键 ， 值 ) 对 都 
调用 
Products1995 
Concurrent 
HashMap 的 
merge() 方 
1% > merge 
函数 将 接收 两 
个 评论 列表 ， 
这 样 我 们 只 需 
将 它们 连接 成 
一 个 列表 即 
ao 


一 个 采用 
Concurrent 
LinkedDequ 


e 类 的 例子 


Collection 


接口 也 引入 了 
Java8 中 的 


些 新 方法 。 大 
多 数 并 发 数据 
结构 都 实现 了 
该 接口 ， 因 此 
可 以 通过 它们 
这 些 新 特 
生 。 其 中 两 种 
方法 是 
stream( ) 和 
parallelst 
ream(), E 
们 在 第 8 章 和 
第 9 章 中 都 已 
经 用 到 > FE 
看 看 如 何 使 用 
另外 两 种 方 
法 ， 这 要 用 到 
前 面 章节 已 提 
到 的 含有 20 
000 个 商品 的 
Concurrent 
LinkedDequ 
es 
e remove 
IfO) 方 
法 
该 方法 在 
Collec 
tion 接 
口中 有 
个 默认 实 
MH, TE 
非 并 发 的 
而 没 
有 被 
Concur 
rentLi 
nkedDe 
que XE 
载 。 该 方 
法 接收 一 
个 
Predic 
ate 接口 
的 实现 作 
这 样 就 会 
接收 
Collec 
tion 
的 一 條 元 
素 作 为 参 
数 ， 而 且 


ARE la 


= 
Rr 
Tr 
au E 


Cob 


pmi 

D 
na 
> OH 


mo 
eT 
ch 
Re 
dE A 
o 


ntin("P 
roducts 


"+produ 
ctList. 
size()) 


£ 
product 
List.re 
moveIf( 
product 
-> 
product 
.getSal 
esrank( 


nt1n( "P 
roducts 


"+produ 
ctList. 
size()) 


É 
product 
List.fo 
rEach(p 
roduct 


-> { 


System. 
out.pri 
nt1n(pr 
oduct.g 
etTitle 
D+": 


"+ 


product 


.getSal 
esrank( 
) ) ; 
}); 


splite 
rator( 


) 方 法 
该 方法 返 


口 
Splite 
rator 


spliterator 
定义 了 可 
被 
Stream 
API 使 用 
的 数 据 


Ly 


iterator 
实现 ， 可 


isPara 
llel) 
在 其 之 上 


m 


一 个 


具有 8 个 


Sn 
+ 


WEISS E 


NM 
VS 


= 


— 
FO CE 


[ab] 
= 
o 


1 


n A Ser 
NO. 本 
— 

E 
> 


at 


tE 


Nt CHI Gs NAS 
ot 
(ay 


= 
ost 


En 


n + 
Do 
E 


mE 


个 商品 的 
ArrayL 
ist 数据 
结构 。 


atorTas 
k 
impleme 
nts 
Runnabl 


et 


private 
Spliter 
ator<Pr 
oduct> 
spliter 
ator; 


public 
Spliter 
atorTas 
k 

(Splite 
rator<P 
roduct> 
spliter 
ator) { 


this.sp 
literat 
or=spli 
terator 


3} 


@Overri 
de 


public 
void 


run() { 


int 
counter 
=0; 


while 

(splite 
rator.t 
ryAdvan 
ce(prod 
uct -> 


{ 


product 
.SetTit 
le(prod 
uct.get 
Title() 
.toLowe 
rCase( ) 


); 
})) í 


counter 
++; 


y 


System. 
out.pri 
ntln(Th 
read.cu 
rrentTh 
read(). 
getName 


O 


+" . "ico 
unter); 


} 


在 主 方法 
Hie ie 
将 20 000 
个 商品 加 
载 到 

Concur 
rentLi 
nkedQu 
eue, W 
可 以 得 到 
= 

spliterator 


RE 
的 一 些 


性 


a 
Fino! 


> 


计 规模 。 


Spliter 
ator<Pr 
oduct> 
spliti= 
product 
List.sp 
literat 
or(); 
System. 
out.pri 
ntin(sp 
liti.ha 
sCharac 
teristi 
cs(Spli 
terator 
. CONCUR 
RENT) ); 
System. 
out.pri 
ntin(sp 
lit1.ha 
sCharac 
teristi 
cs(Spli 
terator 
. SUBSIZ 


ED)); 

System. 
out.pri 
ntin(sp 
lit1.es 
timates 


ize()); 


spliterator 


spliterator 


的 大 小 。 


Spliter 
ator<Pr 
oduct> 
split2= 
split1. 
tryspli 
t(): 
System. 
out.pri 
ntin(sp 
lit1.es 
timates 
ize()); 
System. 
out.pri 
ntln(sp 
lit2.es 
timates 


ize()); 


量 的 元素 


处 理 完 


ThreadP 
oolExec 
utor 
executo 
r= 
(Thread 
PoolExe 
cutor) 


Executo 


executo 
r.execu 
te(new 
Spliter 
atorTas 
k(split 
2)); 


可 以 发 
现 ， 在 分 
al 
spliterator 
之 前 ， 


estima 


spliterator 
都 有 10 


原子 变量 是 在 
Java 1.545] 
入 的 ， 用 于 提 
供 针对 
integer > 
long > 
boolean > 
reference 


BEE o 


对 


DoubleAccu 
mulator ` 
DoubleAdde 
ro 
LongAccumu 
lator 和 
LongAdder 
o 在 前 一 や 
中 ， 我 们 使 用 


LongAdder 
类 计算 了 商品 
% 差 评 数 。 该 


Ir 


D yk 
ct AL 
hn 


omicLong 
以 的 功能 ， 

是 当 经 常 更 
自 不 同 线 
的 宗 加 操作 
只 需要 在 


Eb SR TO ok 
X 


* EE Sã 
r m 
AE 
a! 
a 
us 


HE E 
amb Ny 
t 


s 


oubleAdde 
函数 与 之 类 
， 只 不 过 针 
double 


7109 


| 
+ 


|> fmm 
She 
Mae 

us 

| 


e decrem 
ent() 

: 相当 于 
add ( -1 
) o 
e sum() 

: 该 方法 

返回 计数 

器 的 当前 


请 注意 ， 
DoubleAdde 
r 类 并 没有 
increment ( 
) 和 
decrement ( 


) 方法 。 


LongAccumu 
lator 类 和 

LongAdder 

类 很 类 似 ， 但 
是 它们 也 
个 非常 明显 的 
区 别 。 它 们 都 


个 可 以 指 


att 


定 如 下 两 个 参 
sa 


。 内 部 计数 
器 的 标识 

É o 

。 一 个 将 新 

ARIE 

累加 器 的 


要 注意 的 是 ， 
该 画 数 并 不 依 
赖 于 累加 的 顺 
序 。 在 这 种 情 
况 下 ， 最 重要 
的 方法 就 是 如 
下 两 种 。 


e accumu 
late() 
: 该 方法 


代码 执行 完毕 


LongAccumula 
tor 
accumulator= 
new 
LongAccumula 
tor((x,y) -> 
x*y, 1); 


IntStream.ra 
nge(1, 
10).parallel 
().forEach(x 
-> 
accumulator 


.accumulate( 
x)); 

System.out.p 
rint1n(accum 
ulator.get() 


a 


ERMA PE 
用 交换 运算 ， 
这 样 对 于 任意 
输入 顺序 ， t 


Ser 
q 
Ej 
co 
ny 
Of = 

Im 
zu 
ar 
>+ 
mw 


変量 句 柄 
variable 
andle) 是 一 
对 变量 、 静 
域 或 数组 元 
的 动态 型 3 


a 


ja SN 
之 
可 
E 
ES 


需要 采 任何 
同步 机 制 。 


这 是 Java9 


引入 的 一 种 新 


ete pH 


VarHandle 


o 変量 


句柄 有 如 焉 几 
访问 方法 。 


。 读 取 访 问 
模式 : 


getVol 
atile( 
)> 
getAcq 
uire() 
和 

getOpa 


保 对 该 变 


量 的 


> 


王寺 
LE Alm BE ir 
xx 


Ema 
m 


你 按照 不 
同 的 内 存 


排序 规则 


写 入 变量 


的 。 

原子 更 新 
访问 模式 
: 这 种 模 
式 获得 与 
原子 变量 
类 似 的 功 
能 和 操 


t() 


+ 
II 


AE 


Ket E SS ES a 
Eds 


BREIT 
m UK 


i は Ha 
TN 
S` 


a 


NE 


pe 


i R iS 


n() 


AS WES 


EA ESA 


IS 


TA 


ン 


oF É EK 


o 


ay 
y 


en 


而 第 
二 种 
法 将 
变量 
视 为 
= 
非 易 
失 性 
变 
É o 
・ 数值 型 原 
子 更 新 访 
问 模式 
: 这 种 模 
式 以 原子 
方式 修改 
数值 。 你 
可 以 使 用 
下 面 的 方 
法 。 

e get 
And 
Add 
() 
: 増 
加 変 
量 的 
值 并 

返 
可 之 
前 的 
值 ， 
HA 
该 变 
量 被 
原子 
动 
声明 
为 一 
个 易 
失 性 
变 
É o 
・ 位 原子 更 
新 访问 模 
式 : 这 
种 模式 以 
原子 方式 
按 位 修改 
值 。 你 可 
以 使 用 
getAnd 
Bitwis 


或 者 
getAnd 
Bitwis 
eAnd( ) 
方 法 


例如 ， 可 用 一 
个 名 为 
VarHandleD 
ata 的 类 ， 它 
safeValue 
和 
unsafeValu 
e 的 两 个 属 
性 2 


a 


public class 
VarHandleDat 


safeValue; 
public 

double 

unsafeValue; 


RE 


XP 
E 


VarHandle 
直接 更 新 
safeValue 
属性 和 
unsafeValu 


e 属性 的 值 。 


创建 一 个 对 象 
某 个 域 的 
VarHandle 
对 象 的 最 简单 
方式 是 使 用 
MethodHand 
les 类 中 的 静 


该 方法 会 返 世 


MethodHand 
les.Lookup 


I 対象 , E 
于 创建 
MethodHand 
les。 然 后 ， 


前 类 (这 


VarHandleD 
ata) 的 
MethodHand 
les ° JE, 
使用 
findVarHan 
dle() 方 法 
获取 对 象 
VarHandle 
， 以 访问 对 象 
的 域 


Alan, 如果 想 
要 使 用 

VarHandle 
访问 
VarHandleD 
ata 対象 的 
safeValue 
属性 , 可以 米 


用 下 述 指令 。 


handler = 
MethodHandle 
s.lookup().i 
n(VarHandleD 
ata.class) 


.findVarHand 
le(VarHandle 
Data.class, 


"safeValue", 
double.class 


); 


因此 ， 我 们 实 
现 一 个 名 为 

VarHandleT 
ask 的 类 ， 该 
类 实现 了 
Runnable 接 
， 它 可 以 增 
加 和 减少 
VarHandleD 
ata 对 象 的 两 
个 属性 的 值 。 


如 前 所 述 ， 我 
们 使 用 
VarHandle 
对 象 访问 
safeValue 
属性 (通过 
getAndAdd 
) 方 法 ) , # 
接 修改 
unsafeValu 
e 属性 。 


public class 
VarHandleTas 
k implements 
Runnable { 
private 
VarHandleDat 
a data; 
public 
VarHandleTas 
k(VarHandleD 
ata data) { 


this.data = 
data; 


@Override 
public 
void run() { 


VarHandle 
handler; 


try { 


handler = 
MethodHandle 
s.lookup().i 
n(VarHandleD 
ata.class) 


. findvarHand 
le(VarHandle 
Data.class, 


"safeValue", 
double.class 


handler.getA 
ndAdd(data, 
+100); 


data.unsafeV 
alue += 100; 


handler.getA 
ndAdd(data, 
-100); 


data.unsafeV 
alue -= 100; 


} catch 
(NoSuchField 
Exception | 
IllegalAcces 


sException 


e) { 


e.printStack 
Trace(); 


+ 
} 


最 后 ， 实 现 
VarHandleM 
ain 类 ， 该 类 
创建 一 个 
VarHandleD 
ata 対象 和 10 
个 并 发 更 新 同 
一 対象 的 
VarHandleT 
asks ° 


public class 
VarHandleMai 
nt 

public 
static void 
main(String[ 
] args) { 


VarHandleDat 
a data = new 
VarHandleDat 


a(); 
for 


(int i=0; 
i<10; i++) { 


VarHandleTas 
k task=new 
VarHandleTas 
k(data); 


ForkJoinPool 
.commonPool( 
).execute(ta 
sk); 


ForkJoinPool 
.commonPool( 
) . Shutdown( ) 


7 


try { 


ForkJoinPool 
.commonPool( 
).awaitTermi 
nation(1, 
TimeUnit . DAY 
S); 


catch 
(Interrupted 
Exception e) 


// 
动 生成 的 


catch 代 码 块 


e.printStack 
Trace(); 


System.out.p 
rint1n( "Safe 
Value: 
"+data.safeV 
alue); 


System.out.p 
rintin("Unsa 
fe Value: 
"+data.unsaf 
evalue); 


} 


执行 本 例 时 ， 
将 看 到 如 何 使 
afeValue 
属性 的 值 总 如 
预期 一 样 为 


nsafeValu 


属性 的 值 每 


任务 的 同步 机 
制 是 任务 之 间 
为 得 到 预期 结 
果 而 进行 的 协 
调 。 在 并 发 应 


两 种 同步 宙 


该 关键 字 可 应 


于 某 个 方法 


o | ~S 
+ Elo 


i 


> E 


MSL ABS TE 


e L 


ock 接 


eC 


RES 


ountD 


ownLat 


C 


h 人 允许 


实现 这 


线程 之 间 
实现 一 个 
数据 交换 
点 。 

。 Comple 
tableF 


Completabl 
eFuture 机 
制 。 


11.2.1 
CommonTas 


k 类 


CommonTask 
的 类 。 该 类 将 
在 随机 的 一 段 
时 间 (0 到 10 
秒 ) 内 将 调用 
线程 休眠 。 其 
源 代 码 如 下 。 


public class 
CommonTask { 


public 
static void 
doTask() て 

long 


duration = 
ThreadLocalR 
andom.curren 
t().nextLong 
(10); 


System.out.p 
rintf("%s- 
%s: Working 
%d 
seconds\n", 


new 
Date(),Threa 
d.currentThr 
ead().getNam 
e), 


duration); 
try £ 


TimeUnit.SEC 
ONDS.sleep(d 
uration); 

} catch 
(Interrupted 
Exception e) 


e.printStack 


Trace(); 

} 
} 
以 下 各 节 中 人 
现 的 所 有 任务 
都 要 用 该 类 来 
模拟 其 执行 时 


11.2.2 
Lock 接口 


最 基本 的 一 种 
同步 机 制 就 是 
Lock 接口 及 


行使 用 
un1ock( ) 方 
法 释放 了 该 
锁 。 你 必须 在 
finally 部 
分 调用 


public class 
LockTask 
implements 
Runnable { 


private 
static 
ReentrantLoc 
k lock = new 
ReentrantLoc 
KO; 

private 
String name; 


public 
LockTask(Str 
ing name) { 


this.name=na 
me; 


} 


@Override 
public 

void run() { 
try { 


lock.lock(); 


System.out.p 
rint1n( "Task 
" + name + 
"; Date: " + 
new Date() 


+ ": Running 
the task"); 


CommonTask.d 
oTask(); 


System.out.p 
rint1n( "Task 
" + name + 
"; Date: " + 
new Date() 


+ ": The 
execution 
has 


finished"); 


} 
finally { 
lock.unlock( 


y; 
} 


你 可 以 对 此 进 
行 验 证 ， 例 
如 ， 使 用 下 述 
代码 在 一 个 执 
行 器 中 执行 10 
个 任务 。 


public class 
LockMain { 


public 
static void 
main(String[ 
] args) { 


ThreadPoo1Ex 
ecutor 
executor= 
(ThreadPoolE 
xecutor) 


Executors.ne 
wCachedThrea 
dPool(); 

for (int 
i=0; i<10; 
i++) { 


executor.exe 
cute(new 
LockTask("Ta 
sk "+i)); 


executor.shu 
tdown(); 
try { 


executor.awa 
itTerminatio 
n(1, 

TimeUnit.DAY 
S); 

} catch 

(Interrupted 
Exception e) 


{ 


e.printStack 
Trace(); 


} 
} 


图 中 可 以 
到 执行 该 例 
F 


结果 。 你 会 
上 如何 一 交 


执行 一 个 任 


o 


AR OE ED At 


11.2.3 
Semaphore 


类 


信和 号 量 机 制 是 
Edsger 
Dijkstra 于 
1962 年 提出 
的 ， 用 于 控制 
对 一 个 或 多 个 
共享 资源 的 访 
问 。 该 机 制 基 
于 一 个 内 部 计 
Estas DIM PA 
名 为 wait() 
和 s1gna1( ) 
的 方法 。 当 一 
个 线程 调用 
wait() 方法 
時 , 如果 内 
计数 器 的 值 大 
Fo, BBA E 


0， 那 么 线程 
将 被 阻塞 ， 
到 某 个 线程 调 
用 s1nga1( ) 
方法 为 止 。 当 
一 个 线程 调用 
signal() 
方法 时 ， 信 和 号 


に 


待 ， 它 将 对 内 
部 计数 器 做 弟 
增 操作 。 如 果 
信号 量 ， 就 获 
取 这 其 中 的 

个 线程 ， 该 线 


acquire() 


signal() 5 
法 被 称 作 
release() 
e 例如， 在 本 
例 中 便 用 到 


— MN g 


Semaphore 
类 保护 其 代码 
的 任务 。 


public class 
SemaphoreTas 
k implements 
Runnable{ 
private 
Semaphore 
semaphore; 
public 
SemaphoreTas 
k(Semaphore 
semaphore) { 


this. semapho 
re=semaphore 


7 


@Override 
public 

void run() { 
try { 


semaphore.ac 
quire(); 


CommonTask. d 
oTask(); 

} catch 
(Interrupted 
Exception e) 


e.printStack 
Trace(); 


} 
finally { 


semaphore.re 
lease(); 


} 
} 


ーー イト 
Semaphore 
类 。 该 类 使 用 


就 可 以 同 时 运 
行 两 个 任务 。 


public 
static void 
main(String[ 
] args) { 


Semaphore 
semaphore=ne 


w 
Semaphore(2) 


7 


ThreadPoo1Ex 
ecutor 
executor= 
(ThreadPoolE 
xecutor) 


Executors.ne 
wCachedThrea 
dPool(); 


for (int 
i=0; i<10; 
i++) £ 


executor.exe 
cute(new 

SemaphoreTas 
k(semaphore) 


, 


} 


executor.shu 
tdown(); 


try { 


executor. awa 
itTerminatio 
n(1, 
TimeUnit.DAY 
S); 

} catch 
(Interrupted 


Exception e) 


e.printStack 
Trace(); 


} 
} 


11.2.4 
CountDown 


Latch 类 
该 类 提供 了 一 


ets Ae 
等 待 一 


countDown( 
) 方法 对 该 内 
部 计数 器 做 递 
减 操作 > 


例如 ， 在 该 任 
务 中 使 用 
countDown( 
) 方 法 対 
CountDownL 
atch 対象 

MEAR 
数 的 参 数 ) 的 
内 部 计数 器 做 
递减 操作 。 


public class 
CountDownTas 
k implements 


Runnable { 


private 
CountDownLat 
ch 
countDownLat 
ch; 


public 
CountDownTas 
k(CountDownL 
atch 
countDownLat 


ch) { 


this.countDo 
wnLatch=coun 
tDownLatch; 


} 


@Override 
public 
void run() { 


CommonTask.d 
oTask(); 


countDownLat 
ch.countDown 


O; 


} 
} 


然 后 , 在 


ヨ 
9 
E 
5 

| 

A 
mts 
N 


中 执行 这 些 任 
务 ， 使 用 
CountDownL 
atch 类 的 
await() 方 
法 等 待 任务 完 
成 。 
countDownL 
atch 対象 米 
用 要 等 待 的 任 
ne 初 始 


pub1ic 
static void 
main(String[ 
] args) { 


CountDownLat 
ch 
countDownLat 
ch=new 
CountDownLat 
ch(10); 


ThreadPoo1Ex 
ecutor 
executor= 
(ThreadPoolE 
xecutor) 


Executors.ne 
wCachedThrea 
dPool(); 


System.out.p 
rintin("Main 
Launching 
tasks"); 
for (int 
i=0; i<10; 
i++) { 


executor.exe 
cute(new 
CountDownTas 
k(countDownL 
atch)); 


try { 


countDownLat 
ch.await(); 
} catch 
(Interrupted 
Exception e) 


e.printStack 
Trace(); 


System.out. 


executor.shu 
tdown(); 


11.2.5 
CyclicBar 


rier 类 


Y 点 的 任务 a 
当 一 个 任务 到 
达 指 定点 时 ， 
它 要 执行 
await() 方 
法 以 等 待 其 他 
F 务 。 当 所 有 
王 务 都 到 达 
时 ， 
CyclicBarr 
ier 对 象 将 它 
们 唤醒 ， 这 样 
就 能 够 继续 执 
行 。 
当 所 有 的 参与 


方 都 到 达 后 ， 
该 类 允许 执行 


HH 


Runnable 对 
ES o 


列 如 ， 我 们 实 
现 了 下 面 的 


Runnable 接 


Vy. 


EAH 


re 
CyclicBarr 
ier 对 象 来 等 
待 其 他 任务 。 


public class 
BarrierTask 
implements 
Runnable { 


private 
CyclicBarrie 
r barrier; 


public 
BarrierTask( 
CyclicBarrie 
r barrier) { 


this.barrier 


=barrier; 


@Override 
public 


void run() { 


System.out.p 
rintin(Threa 
d.currentThr 
ead().getNam 
e()+": Phase 
1"); 


CommonTask.d 
oTask(); 
try { 


barrier.awai 
tO; 

} catch 
(Interrupted 
Exception e) 


e.printStack 
Trace(); 

} catch 
(BrokenBarri 
erException 


e) { 


e.printStack 
Trace(); 


System.out.p 
rintin(Threa 
d.currentThr 
ead().getNam 
e()+": Phase 
2"); 


} 
} 


我 们 还 实现 了 
PAY 
Runnable 对 
&, 当所 有 的 
任务 都 执行 了 
方 


o 
= 
o 
H- 
ct 
na 
A 


public class 
FinishBarrie 
rTask 
implements 
Runnable { 


@Override 
public 
void run() { 


System.out.p 
rintin("Fini 
shBarrierTas 
k: All the 


tasks have 
finished"); 


+ 
} 


以 发 现 ， 
CyclicBarr 
ier 对 象 是 用 
我 们 要 同步 的 
任务 数 和 
FinishBarr 
ierTask 対 
象 来 初 始 化 
的 。 


public 
static void 
main(String[ 
] args) { 


CyclicBarrie 
E 
barrier=new 
CyclicBarrie 
r(10, new 
FinishBarrie 
rTask()); 


ThreadPoolEx 
ecutor 
executor= 
(ThreadPoolE 
xecutor) 
Executors.ne 
wCachedThrea 
dPool(); 


for (int 
i=0; i<10; 
i++) £ 


executor.exe 
cute(new 
BarrierTask( 
barrier)); 


} 


executor.shu 
tdown(); 


try { 


executor.awa 
itTerminatio 
n(1, 
TimeUnit.DAY 
S); 

} catch 


(Interrupted 
Exception e) 


e.printStack 
Trace(); 


} 


下 面 的 屏幕 截 
图 展示 了 本 例 
的 执行 结果 。 


可以 看 到 , 当 
所 有 的 任务 都 
到 达 调 用 
await() 方 
法 的 公共 点 
时 ， 将 执行 
FinishBarr 
ierTask, 
然后 所 有 的 任 
务 都 继续 其 执 
行 过 程 。 


11.2.6 
Completab 
leFuture 


类 


这 是 在 Java 8 
并 发 API 中 引 


完毕 后 才 执 行 
的 任务 。 与 
Future $ 
相同 , 
Completabl 


eFuture 也 
必须 采 TER 
要 返回 的 结 
类 型 进 和 JZ 了 参 数 
化 。 和 
Future 对 象 
一 样 ， 
Completabl 
eFuture 类 
表示 的 是 异步 
计算 ER 


JEI 
y 


EX 
Z 
yH 
PE 
> 


complete() 
ei 确定 结 

果 ， 而 当 计算 
出 规 异常 时 ， 
则 采用 
completeEx 
ceptionall 


yO 方法 。 如 
个 线程 di] 


Completabl 
eFuture 的 
complete() 
方法 或 

completeEx 
an 


ech 
eFuture 对 
象 。 在 本 例 
中 ， 你 需要 使 
前 面 介 绍 的 
complete() 
方法 确定 任务 
结果 不 过 ， 
也 可 以 使 用 
runAsync() 
方 法 或 者 
supplyAsyn 


SH Box a 

Completabl 
eFuture<Vo 
id> ， 这 样 计 
算 就 不 能 再 返 
回 任何 结果 
了 。 
supplyAsyn 
c( ) 方法 执行 
J Supplier 
接口 的 一 个 实 
现 ， 它 采用 本 


数 化 。 该 
Supplier $ 


=> 
EE 


Completabl 
eFuture 的 
结果 将 作为 
Supplier 接 
的 结果 o 


现 (可以 
表示 为 一 
个 lambda 
表达 式 ) 


数 。 该 画 
数 将 在 调 


Comple 
tableF 


uture 
以 获得 
Fuctio 
n 的 结 
Ho 
thenCo 
mDOSeA 


Comple 
tableF 
uture 

时 很 有 


thenAc 
ceptAs 
ync() 
: 该 方法 


thenRu 
nAsync 


ZN o 


: 该 


thenCo 
mb1neA 


SynC( ) 


: 该 


方法 


接收 
参数 
一 个 


HA 


个 
o 


参数 
= 


Comple 
tableF 
uture 


实例 
= 


ei 


Be: 
参 数 


BiFunc 


口 的 
实现 
描述 


tion 接 


=. 


( 可 


函数 


该 


为 


个 lambda 


) o 


BiFunc 
tion & 


1% 
在 两 


现 将 
A: 


Comple 
tableF 
uture 


E 
的 
数 中 
都 完 


Bu vi 
和 参 
的 ) 
成 后 


执行 
方法 


口 


o 该 
将 返 


Comple 
tabler 


runAft 
erBoth 


Comple 


runAft 
erEith 
erAsyn 


: 该 


Comple 
tableF 
uture 
対象 完成 
之 后 才 会 


执行 


Runnab 


le 任 


Bo 


allof( 
) : 该 方 


法 接收 


Comple 
tabler 


uture 
対象 的 一 
條 変量 列 
表 作为 参 
数 。 它 将 
返回 一 个 
Comple 
tableF 
uture< 
Void> 
对 象 ， 而 
该 对 象 将 
在 所 有 的 
Comple 
tableF 
uture 
対象 都 完 
成 之 后 返 
u EzE 
Ho 
e anyof( 
Ya 该 方 
法 和 前 一 


Comple 
tableF 
uture 
対象 会 在 
H 个 


Completabl 
eFuture 返 

ERR, H 
以 使用 get( ) 


法 。 这 两 个 方 
法 都 会 阻塞 调 
用 线程 ， 直 到 
Completabl 
eFuture 完 
成 之 后 返回 其 


get() 方 法 
En 
ExecutionE 
xception 
这 是 一 个 校 
验 异 常 ，， 而 
join() 方法 
En 
RuntimeExc 
ption (这 
是 一 个 未 校 验 
FE) o K 
此 ， 在 不 抛 出 
异常 的 lambda 
(例如 
Supplier 、 
Consumer 或 
Runnable ) 


内 部 ， 使 用 


m D 


ForkJoinPo 
ol.commonP 
ool 实例 以 并 
发 方式 执行 。 
这 些 方法 都 有 
不 带 Async 
后 级 的 版 本 ， 
它们 将 以 串 行 
方式 执行 (这 
就 是 说 ， 与 执 


Completabl 
eFuture 的 


T 

Completabl 
eFuture # 
在 作为 参数 
递 的 执行 器 
以 异步 方式 执 
行 。 


け ATE 


Java 9 增加 了 
一 些 方法 ， 为 
Completabl 
eFuture 类 
赋予 了 更 强 的 
功能 。 


。 defaul 
tExecu 
tor() 

: 该 方法 

J PRE 

并 不 接收 

Execut 


or 作为 


REE 
ForkJo 
inPool 
. COMMO 
nPool( 
) 方 法 的 
返回 值 。 

。 copy() 
: 该 方法 
创建 
Comple 
tableF 
uture 
対象 的 一 
个 副本 。 
如 果 原 来 
的 


成 


拠出 


Co 
ti 
ce 


E 


mple 
onEx 
ptio 


nur 
n 异常 。 


co 


mple 


teAsyn 


c( 


) : 


该 方法 接 


SU 
er 


选 
EX 
or 


Su 
er 


BJ 


= 


ppli 
対象 


ENS 
(还 可 以 


E 


ecut 


) o 


ppli 
的 结 


果 完 成 


CO 
ta 
ut 


o 


mple 
bleF 
ure 


orTime 


ou 


: 该 方法 
接收 一 段 
时 延 (一 
段 时 间 和 


一 个 


Ti 
it 


如 果 


Co 
ta 
ut 


t() 


meUn 


) o 


mple 
bleF 
ure 


在 这 段 时 


间 之 后 没 


comple 


过 它 在 作 
为 参数 区 
{BATE E 
内 正常 完 
成 。 

。 delaye 
dExecu 
tor() 

: 该 方法 
返回 一 个 
Execut 
or, IX 
执行 器 在 
执行 指定 
时 延 之 后 
执行 某 一 
任务 。 
使 用 
Completabl 
eFuture & 
在 本 例 中 ， 你 
ele 
Completabl 
eFuture 类 
发 方式 执 
行 一 些 异步 任 
务 。 我 们 将 
亚马逊 的 20 
000 个 商品 构 
成 的 集合 实现 
下 面 的 任务 
树 。 


o 

Rr 

> 

Ol\ Dk: 

ot p 
HAS Ne 


Sa 
à| | 
> 


$ 

1113 

ZE 
Ka Sh En E 
DE BERRO o SE 


务 是 获得 评 
最高 的 商品 


E 


at R per lt 


N 


Ir 
Tr 

= ° mE FR 
en 
HR: 


> a 


e 
ZE 
E 
= 
ET 


T 
亚洲 


t 对 象 列 


K ° 


public 
class 
LoadTas 
k 
impleme 
nts 
Supplie 
r<List< 
Product 
>> { 


private 
Path 
path; 


public 
LoadTas 
k (Path 
path) { 


this.pa 
th=path 


r 


} 


@Overri 
de 


public 
List<Pr 
oduct> 


get() { 


List<Pr 
oduct> 
product 
List=nu 
11; 


{ 


product 
List = 

Files.w 
alk(pat 
h 


try 


, 
Filevis 
itoptio 
n.FOLLO 
W LINKS 


ctLoade 
r:: load 


) 


.collec 
t 
(Collec 
tors.to 
List()) 
i 

} 
catch 
(IOExce 
ption 


e) { 


e.print 
StackTr 
ace(); 


return 
product 
List; 


} 
} 


该 任务 实 
现 了 
Suppli 
er 接 


$ 
1| | 


SearchT 
ask 
impleme 
nts 
Functio 
n<List< 
Product 
>, 
List<Pr 
oduct>> 


{ 


private 
String 
query; 


public 
SearchT 
ask(Str 
ing 
query) 
{ 


this.qu 
ery=que 
ry; 

} 


@Overri 
de 


public 
List<Pr 
oduct> 
apply(L 
ist<Pro 
duct> 
product 


s) { 


System. 
out.pri 
ntln(ne 
w 
Date()+ 
Wa 


Complet 
ableTas 
k: 

start") 


r 


List<Pr 
oduct> 
ret = 

product 
s.strea 


m() 


. filter 
(produc 
t= 
product 
.getTit 
le() 


.toLowe 
rCase() 
.contai 
ns(quer 


y)) 


.collec 
t(Colle 
ctors.t 
oList() 


); 


System. 
out.pri 
ntln(ne 
w 
Date()+ 
Wa 


Complet 
ableTas 
k: end: 


"+ret.s 
ize()); 


return 
ret; 


} 


| 


它 接收 含 
有 全 部 商 
品 信息 的 
List<P 
roduct 
>, 返 回 
一 个 含有 
满足 标准 
的 商品 的 
List<P 


WriteT 
ask 将 搜 
索 任 务 中 


获得 的 商 


就 必须 采 
如 下 形 
Ho 


sk 
impleme 
nts 
Consume 
r<List< 
Product 
>> { 


@Overri 
de 


. main() 


方 法 
我 们 在 


main() 
方 法 中 対 
这 些 任 务 
进行 J 组 
ZA Ki 
5%, 使用 
Comple 
tableF 
uture 


以 展示 
delayE 
xecuto 
r( ) 方 法 
如何 工 
作 ・ 


public 
class 
Complet 


ableMai 


nt 


public 
static 
void 
main(St 
ring[] 
args) { 


Path 
file = 
Paths.g 
et("dat 
a" 7 "cat 
egory") 


r 


System. 
out.pri 
nt1n(ne 


w 
Date() 
+ tha 
Main: 
Loading 
product 
s 


after 
three 
seconds 


O); 


LoadTas 
k 

loadTas 
k = new 
LoadTas 
k(file) 


r 


Complet 
ableFut 
ure<Lis 
t<Produ 
ct>>loa 
dFuture 
Complet 
ableFut 
ure 


.supply 
Async(1 
oadTask 
, Comple 
tableFu 
ture 


.delaye 
dExecut 
or(3, 
TimeUni 
t. SECON 
DS)); 


Als, E 
了 生成 的 
Comple 
tableF 


行 搜索 任 
务 。 


System. 
out.pri 
nt1n(ne 


W 
Date( ) 
+ ng 
Main: 
Then 
apply 
for 


search" 


); 


Complet 
ableFut 
ure<Lis 
t<Produ 
ct>> 
complet 
ableSea 
rch = 
loadFut 
ure 


.thenAp 
plyAsyn 
c(new 
SearchT 
ask("lo 
ve")); 


Y 


FON 
F Tr 


| 
TA 
Sê 
= 
„Ju 


Complet 
ableFut 
ure<Voi 
d> 
complet 
ablewri 
te = 
complet 
ableSea 
rch 


.thenAc 
ceptAsy 
nc(new 
WriteTa 


sk()); 


complet 
ablewri 
te.exce 
ptional 
ly(ex - 
Ret 


System. 
out.pri 
nt1n(ne 


W 
Date() 
+ Ha 
Main: 
Excepti 
on LU 


+ 
ex.getM 
essage( 


)); 


return 
null; 


}); 


ER, Y 


System. 
out.pri 
nt1n(ne 


W 
Date( ) 
+ Ha 
Main: 
Then 
apply 
for 
users" 


r 


Complet 
ableFut 
ure<Lis 
t<Strin 
g>> 
complet 
ableUse 
Sus 
loadFut 
ure 


.thenAp 
plyAsyn 
c(resul 
tList - 
> て 


System. 
out.pri 
nt1n(ne 
w 
Date()+ 
"a 


Main: 
Complet 
able 
users: 
start") 


r 


List<St 
ring> 
users = 
resultL 
ist.str 
eam() 


.flatMa 
p(p -> 

p.getRe 
views () 
.stream 


O) 


.map(re 
view -> 
review. 
getUser 


O) 


.distin 
ct() 


.collec 
t(Colle 
ctors.t 
oList() 


r 


System. 
out.pri 
nt1n(ne 


W 
Date() 
+ ta 
Main: 
Complet 
able 
users: 
end"); 


return 
users; 


}); 


$ 
=> 
Jl 
AR 
> N E 
ma 


Ob 
レ 


za 


| 
E 


En gi Bo sl | 


nt1n(ne 


W 
Date( ) 
+ rs 
Main: 
Then 
apply 
for 
best 


rated 
product 


o); 


Complet 
ableFut 
ure<Pro 
duct> 
complet 
ablePro 
duct = 
loadFut 
ure 


.thenAp 
plyAsyn 
c(resul 
tList - 
> て 


Product 
maxProd 
uct = 
null; 


double 
maxScor 
e = 
0.0; 


System. 
out.pri 
ntln(ne 


Main: 
Complet 
able 
product 


start") 
7 

for 
(Produc 
t 
product 


resultL 
ist) { 
if 

(!produ 
ct.getR 
eviews( 
). isEmp 
ty()) { 


double 
score = 
product 
.getRev 
iews(). 
stream( 


) 


.mapToD 
ouble(r 
eview - 
> 

review. 
getValu 


e()) 


.averag 
e().get 
AsDoubl 
e(); 


if 
(score 
> 
maxScor 


e) { 


maxProd 
uct = 
product 


r 


maxScor 

e = 

score; 
} 
} 

} 


System. 
out.pri 
nt1n(ne 
W 
Date() 
+ Wa 
Main: 
Complet 
able 
product 


end"); 


return 
maxProd 
uct; 


}); 


System. 
out.pri 
nt1n(ne 


W 
Date( ) 
+ Ea 
Main: 
Then 
apply 
for 
best 


selling 
product 
neon ya 
Complet 
ableFut 
ure<Pro 
duct> 
complet 
ableBes 
tSellin 
gProduc 
E = 


loadFut 
ure.the 
nApplyA 
sync(re 
sultLis 
t -> { 


System. 
out.pri 
ntln(ne 
w 
Date() 
+ Ha 
Main: 
Complet 
able 
best 


selling 


start") 


r 


Product 
bestPro 
duct = 
resultL 
ist.str 
eam() 


.min(Co 
mparato 
r.compa 
ringLon 
9 


(Produc 
t::gets 
alesran 


k)) 


.orElse 
(null); 


System. 
out.pri 
nt1n(ne 


W 
Date( ) 
+ Ws 
Main: 
Complet 
able 
best 


selling 
end"); 
return 


bestPro 
duct; 


}); 


如 前 所 
mi, Bill] 
想 将 前 两 
个 任务 的 


结果 连 到 


以 使 用 
thenCo 
mb1neA 


Complet 
ableFut 
ure<Str 
ing> 

complet 
ablePro 
ductRes 
ult = 


complet 
ableBes 
tSellin 
gProduc 
t 


. thenCo 
mbineAs 


ync( 


complet 
ablePro 
duct, 
(bestSe 
llingPr 
oduct, 


bestRat 
edProdu 
ct) -> 
{ 


System. 
out.pri 
nt1n(ne 


W 
Date() 
+ Ms 
Main: 
Complet 
able 
product 


result: 
start") 


r 


String 
ret = 
"The 
best 
selling 
product 
is LU 


+ 
bestSel 
lingPro 
duct.ge 
tTitle( 


rated 
product 
is " 


+ 
bestRat 
edProdu 
ct.getT 
itle(); 


System. 
out.pri 
nt1n(ne 


w 
Date() 
+ ti 
Main: 
Complet 
able 
product 


result: 
end"); 


return 
ret; 


}); 


最 后 ， 使 


comple 
teOnTi 


Comple 
tableF 
uture 

， 并 得 


+ ES 
结果 


LE 


System. 
out.pri 
nt1n(ne 


W 
Date( ) 
+ ta 
Main: 
Waiting 
for 
results 


"); 


complet 
ablePro 
ductRes 
ult.com 
pleteon 
Timeout 
("Timeo 
ut", 1, 


TimeUni 
t. SECON 
DS); 
Complet 
ableFut 
ure<Voi 
d> 
finalco 
mpletab 
leFutur 
e = 
Complet 
ableFut 
ure 


.allof ( 
complet 
ablePro 
ductRes 
ult, 

complet 
ableUse 
rs, 


complet 
ablewri 
te); 

fina1Co 
mpletab 
leFutur 
e.join( 


): 
try { 


System. 
out.pri 
ntin("N 
umber 
of 
loaded 
product 
Ss: " 


pe 
loadFut 
ure.get 
( ) . size 


O); 


System. 
out.pri 
ntin("N 
umber 
of 
found 
product 
Ss: " 


+ 
complet 
ableSea 
rch.get 
( ) .size 


O); 


System. 
out.pri 
nt1n("N 
umber 
of 
Users: 


" 


+ 
complet 
ableUse 
rs.get( 
).size( 


)); 


System. 
out.pri 
ntln("B 
est 
rated 
product 
. n" 


+ 
complet 
ablePro 
duct.ge 
t().get 
Title() 


r 


System. 
out.pri 
ntin("B 
est 

selling 
product 


+ 
complet 
ableBes 
tSellin 
gProduc 


t.get() 


.getTit 
le()); 


System. 
out.pri 
nt1n( "P 
roduct 
result: 


"+compl 
etableP 
roductR 
esult.g 
et O); 

} catch 
(Interr 
uptedEx 
ception 


Executi 
onExcep 
tion e) 


e.print 
StackTr 
ace(); 


看 到 本 例 
的 执行 结 
果 。 


roduct 


Resul 
返回 字 


ロゴ 


t 


Comple 
tableF 
uture 
进行 了 详 
细 介 绍 ， 
它 是 Java 
8 并 发 API 
1 的 一 人 1 
新 特性 。 


下 一 章 将 
介绍 如 何 
测试 以 及 

a 发 


12 
章 

测试 
与 监 
视 并 
发 应 
用 程 
序 


软件 测试 


都 是 一 项 


在 可 接 受 


= 

Td L 
HF me mí 
Salta 


效 结 


| > 78 att 
- DE Sy amp + TR = 
z 


Fe 
ar 
| E 


A En y y 


a 


NS 


ER 


SN 


bain E E SS Sin FE SE 8 
o Rom FH H.-H Es 
& 


发 过 程 
达到 非常 
高 级 的 阶 


ME 
tu 
(Ey 
Sm 


amp 
OO ot 


ERA] 


¿E 
| 
Mot 
ie Z RES SE 


Am 
Y 
Tr 
DE 


TestNG 
PR 


等 。 还 有 
ef 


MATES 


= 

Ny 

ie HD St 
sl tka Stik” E 


= 
has 
ESP" 


Rê EL 


| 
上 


FRE EL 


等 待 某 一 

条 件 的 线 
程 数 、 `H 
行 的 任务 


— HL 
获取 线程 
信息 的 方 


例如 ， 可 
以 使 用 如 
下 这 样 一 
段 代 码 来 
获取 与 某 
个 线程 相 
关 的 信 


¿LD 


System. 
out.pri 


ntin("* 
KKKKKKK 


类 大火 火炎 炎炎 
KKKKRKRKR 


了 
System. 
out.pri 
ntin("I 
di "+ 
thread. 
getId() 


了 
System. 
out.pri 
ntin("N 
ame: " 


+ 
thread. 
getName 
0); 
System. 
out.pri 
nt1n( "P 
riority 
: " + 
thread. 
getPrio 
rity()) 


, 
System. 
out.pri 
ntin("s 
tatus: 
m + 
thread. 
getStat 
e()); 
System. 
out.pri 
nt1n( "S 
tack 
Trace") 


$ 
for(Sta 
ckTrace 
Element 
ste : 
thread. 
getStac 
kTrace( 


DL 


System. 
out.pri 
nt1n( st 
e); 


12.1.2 
监视 锁 


锁 是 Java 
并 发 API 

提供 的 基 
本 同步 元 


Reentr 
antLoc 


synchr 
onized 


临界 
R) + 
Reentr 
antLoc 
k 类 还 有 
Ei 
可 以 帮助 
你 获知 
Lock 对 


>E 


に 


LER 
E PH 


TRA | 
< 
NA 


TH o 


に 
IS: 


| 
be 


St | A 
> 


ご 
ン 


m 


| 
uy 


TN 
NI 


E 
E pin 


att SR RE ug S 
HE 


private 
static 
final 
long 
serialv 
ersionu 
ID = 
8025713 
6573216 
35686L; 


public 
String 
getOwne 
rName( ) 


É a 
if 
(this.g 
etOwner 
O == 
null) { 
return 
"None"; 


} 


return 

this.ge 
tOwner ( 
).getNa 
me(); 


public 
Collect 
ion<Thr 
ead> 
getThre 


ads() て 


return 
this.ge 
tQueued 
Threads 
O; 

} 
} 


**\n"); 


System. 
out.pri 
nt1n( "0 
wner 

" + 
lock.ge 
tOwnerN 
ame()); 
System. 
out. pri 
ntin("Q 
ueued 
Threads 
E n + 
lock.ha 
sQueued 
Threads 


0); 
if 


(lock.h 
asQueue 
dThread 


s()) { 


System. 
out.pri 
ntin("Q 
ueue 
Length: 
LU + 
lock.ge 
tQueueL 
ength() 


r 


System. 
out.pri 
ntin("Q 
ueued 

Threads 


MN; 


Collect 
ion<Thr 
ead> 
lockedT 
hreads 


lock.ge 
tThread 
s(); 
for 

(Thread 
lockedT 
hread : 
lockedT 
hreads) 


{ 


System. 
out.pri 
ntin(lo 
ckedThr 
ead.get 
Name()) 


} 
} 
System. 
out.pri 


ntin("F 
airness 


System. 
out.pri 
ntin("L 
ocked: 


ntin("H 
olds: 

"+lock. 
getHold 
Count() 


**\n" ); 


似 如 下 所 
示 的 输出 


HR ° 


B 
= 
Sh 
EE 
mm 


ON Ss 出 
ZA 
ala; 
N 


ot 
SN 
[ 


ini > S 

poa 

”人 七 本 
て 


> | Beas 


E St 
| o 
E 

R 


-| 
I 
ぶっ 
Ea 


Dæ 
qe 
ZE. 
[ささ o 
m 
m テト 


a SH q 
c 

UT EF 
+, 
iy 


òm dk EE 


ob 
II 
gr 

EC SE 
> 

4 

us 

ビー 


mw ty 
A 
Gu 
a 
q 
SS 
=H 


eri 
aH 
I o 
SE 


PoolEx 
ecutor 
， 它 提供 
TEJ 
1%, AL 
帮助 你 获 
知 执行 器 
的 状态 。 


+. get 
Act 


na 
ュ ン 


< 


过 - 
N 


o YR Be SE Sp SF SY É 


SL OV AN DES je 


o 
nl 


数 


NE 


H 


Bie SE bh 


ER 
mn 


= 
oy 
mo 


返 
tru 
e o 


可 以 使 用 
类 似 如 下 
的 代码 片 
段 获取 有 
关 
Thread 
PoolEx 
ecutor 


的 信息 。 


System. 
out.pri 
nt1n 


TI 天天 天天 
天天 天天 大 天天 
KKKKKKK 
KKKKKKK 
KKKKKKK 
KKKKKKK 


ku E 


system. 


out.pri 
ntin("A 
ctive 
Count: 
"+execu 
tor.get 
ActiveC 
ount()) 


d 
System. 
out.pri 
nt1n( "C 
omplete 
d Task 
Count: 
"+ 
executo 
r.getCo 
mpleted 
TaskCou 
nt()); 
System. 
out.pri 
ntin("c 
ore 
Pool 
Size:"+ 
executo 
r.getCo 
rePoo1S 
ize()); 
System. 
out.pri 
ntin("L 
argest 
Pool 
Size: 
Wa 
executo 
r.getLa 
rgestPo 
olSize( 


out.pri 
nt1n( "M 
aximum 
Pool 
Size: 
"+ 
executo 
r.getMa 
ximumPo 
olSize( 
)); 
System. 
out.pri 
nt1n( "P 
ool 
Size: 
"+execu 
tor.get 
PoolSiz 
e()); 
System. 
out.pri 
ntin("T 
ask 
Count: 
"+execu 
tor.get 
TaskCou 
ntO); 
System. 
out.pri 
ntin("T 


erminat 
ed: 
"+execu 
tor.isT 
erminat 
ed()); 
System. 
out.pri 
ntin("I 
s 
Termina 
ting: 
"+execu 
tor.isT 
erminat 
ing()); 
System. 
out.pri 
nt1n 


Wk KKK 
KKKKKKK 
KKKKKKK 
KKKKKKK 
KKKKKKK 
KKKKKKK 


PRE 


12.1.4 
监视 
Fork/Joi 
n 框 架 


Fork/Joi 
n 框架 提 


了 一 种 


特殊 的 执 
行 器 y 


Hr 
Sa 
a 
Hl 
Ta [TT 


T 
F 


> 
oe 


in 
Ir 
T 


E 
D} 


E 
Th 


DÊ 
o 
E 

E 
mit 
i} 


小 ) ， 井 


等待 任 


NEN 


re: 
TEREM ma 


WS BOS Se 
Sit I+ 
on <p 


ai 


= 
= 


KA g a 
cm 


= 


o 


> 
w 
H 


可以 使用 
如 下 所 示 
的 代码 片 
段 获 得 
ForkJo 

inPool 

关 的 相关 


B/D 


System. 
out.pri 
ntin("* 


类 大火 火炎 炎炎 
KKKKKKK 
大 大 大 次 大 大 大 
"); 

System. 
out.pri 
ntin("P 
arallel 
ism: "+ 
pool.ge 
tParall 
elism() 


ntin("P 
ool 
Size: 
"+ 
pool.ge 
tPoolSi 
ze()); 
System. 
out.pri 
ntin("A 
ctive 
Thread 
Count: 
mh 
pool.ge 
tActive 
ThreadC 
ount( ) ) 


E 
System. 
out.pri 
ntin("R 
unning 
Thread 
Count: 
"+ 
pool.ge 
tRunnin 
gThread 
Count () 


Submiss 
ion: "+ 


pool.ge 
tQueued 
Submiss 
ionCoun 
t()); 

System. 
out. pri 
ntin("Q 
ueued 

Tasks: 

"+pool. 
getQueu 
edTaskC 
ount( ) ) 


f 
System. 
out.pri 
ntln("Q 
ueued 
Submiss 
ions: 
"+ 
pool.ha 
sQueued 
Submiss 
ions()) 


了 
System. 
out.pri 
ntin("s 
teal 
Count: 
Wa 
pool.ge 
tStealc 
ount()) 


了 

System. 
out.pri 
ntin("T 
erminat 
ed : "+ 
pool.is 
Termina 
ted()); 
System. 
out.pri 
ntin("* 


KKKKKKK 
KKKKKKK 
KKKKKKK 


"); 


在 这 里 
poolzE — 
ae 

ForkJo 
inPool 
対象 ( 例 
如 

ForkJo 
inPool 
. COMMO 
nPoo1( 
)) 。 使 
这 段 代 


12.1.5 
监视 


Phaser 


Phaserzé 
同步 
机 制 ， 允 
许 执行 可 
划分 为 多 
个 阶段 的 
任务 。 该 
类 也 包含 
一 些 于 
获取 
Phaser 状 
态 的 方 


法 。 


+. get 
Arr 
ive 


HUSA 


a SEE St ES ILE SEK 


o 


Oe 


Phas 


er 是 
T pen 


经 完 
执 
o 


可 以 使 用 
如 下 代码 
F STAR AK 
Phaser 的 
相关 信 


Dar) 


System. 
out.pri 
nt1n 


WkK KKK 
KKKKKKK 
KKKKKKK 
KKKKKKK 
KKKKKKK 
KKKKKKK 


BRENO E 


System. 
out.pri 
ntin("A 
rrived 
Parties 
= "+ 
phaser. 
getArri 
vedPart 
ies()); 
System. 
out.pri 
ntin("u 
narrive 
d 
Parties 
: "+ 
phaser. 
getUnar 
rivedPa 
rties() 


了 
System. 
out.pri 
ntin("P 
hase: 
"+phase 
r.getPh 
ase()); 
System. 
out.pri 
ntin("R 
egister 
ed 
Parties 
E ny 
phaser. 
getRegi 
steredP 
arties( 


ntin("T 
erminat 
ed: 

"+phase 
r.isTer 
minated 


KKKKKKK 


AE 


12.1.6 
监视 流 
API 


流 机 制 是 


(除了 
isPara 
11e1( ) 
方 法 , E 


XK 

ES 
fe] 

Sh 


否 为 并 


É E 


@ 
Dor: 
O > 
m 
ーー 


m 

IT 

ae 
TF 


BES al 
SF 


例如 ， 下 
码 计算 了 


double 
result= 
IntStre 
am.rang 
e(0,100 
0) 


.parall 
el() 


.peek(n 
-> 
System. 
out.pri 
nt1n 
(Thread 
.curren 
tThread 


O 


.getNam 
e()+": 
Number 
"+n)) 


.map(n 
-> n*n) 


.peek(n 
-> 
System. 
out.pri 
nt1n 
(Thread 
.curren 
tThread 


O 


.getNam 
e()+": 
Transfo 
rmer 
"+n)) 


.averag 
e() 


.getAsD 
ouble() 


r 


RABEN 
如 下 的 输 
出 结果 。 


Edi 
Eclipse 或 
者 


NetBeans 
这 样 的 
IDE 来 创 
建 项 


编写 源 代 
码 。 而 
JDK 
(Java 
developm 
ent kit) 
中 包含 了 
可 用 于 编 
译 、 执 行 
或 生成 


Javadoc 


通过 在 
Local 
Process |X. 
域 选 定 某 


Remote 
Process X. 


域 引入 远 


= 
o E 
E 
E 
E 


| 
| 
A Seb (SE 


du 
> 
ex 
NE NE DE E 


É] 
TH Ho 
u 
h OE FF 
cu 
on 


按 下 
Insecure 
connectio 


n 按 钮 。 


=| Al atri 
TS 


LT 
Ho 


TH 
| F 


ae 
FAP <4 
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na 
NIS 


Bt 
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ELE RE E al MP XL 
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mp” 


HE 
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http://doc 
s.oracle.c 
om/javase 
/7/docs/te 
chnotes/g 
uides/man 
agement/j 
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idk, 1% 


形 化 方 


UL EA SE 
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LE 


mh 
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12.2.2 
Memory 


选项 卡 


项 卡 的 外 
观 如 下 所 
示 o 


ZN 


12.2.3 
Threads 
选项 卡 


Ho 
Ht 
Edy 
SE 


AS Ea HT 


Threads 
L 


ES HU IE 
在 运行 的 


和 当前 栈 


12.2.4 

Classes 
选项 卡 
Classes 选 
项 卡 展示 
了 当前 加 
RANE 
息 。 该 选 
项 卡 的 外 
观 如 下 所 


ZN ° 


Se 
ii 
e 

fr 


类 的 数 


= 
qu 
NE Y 
xt 


> 
Y 
Er 
EE 
F 


N 
= 
E 
= 


m} I> Ba ot 
k 


Em: 
o 


E 


it a 


NI 
4 


FEB ON SE SS AEE E 


SEX o 


o 


12.2.5 
VM 
Summa 
ry 选 项 
卡 


VM 

Summary 
选项 卡 展 
示 了 有 关 
va 虚拟 
机 的 信 
息 。 该 选 
项 卡 的 外 
观 如 下 所 


ZN 2 


如 图 所 
示 ， 该 选 
项 卡 展示 
了 如 下 信 


o 


¿05 


l 


>H => 


ae E 
Hs 


Ho 
Ir 
ET 


-rav TS 


SS AMNA op FE FE TONY DAT ATO ERR TIS 


ev HY Qr>r FO ee Neh BRIN MAT dan" Ay Oo vv om m VA) usos enter UA) oe” 


É 
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j 
或 


i 
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E) 
| 
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bl 


x 


\ 


。 线程 


“Ds 


Mm F&F VEOH vv Ton e AMR AM UX aus AV HERE Y YH oOo AOS" 


oH 00D0meddlimM¿Xx L ASSINO RR Oy Te + co UT TUT nm nye Dye OTD HH P GRRE USA > SE AT HT 


BS A RR E 
x EX Mak EE th E ta dir: 


“Ds 
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・ AM AUD R HR RA RT を 1 > u 
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12.2.6 


MBeans 


选项 卡 


ge EREKE. 
Glad sc LTS 
ORME Am KR KK 
SIERRA sak 


Descripto 
r 的 内 
A o 


两 个 区 


E att SI 


> JE, 

= 
E. 

o 

E 

= 

m 

の 


Omsk 
= DE 
= jet) 

fas | 
AS 


eration 
域 包 
所 有 可 
前 过 该 


xl 


Em 


执行 的 
JConsole 
的 版本 信 
息 。 你 会 


看 到 类 人 
如 下 的 窗 


mpb > 
[as 
ua 
col + 
Ir n| 
本 一 | 


& 
n> 


中 。 或 者 


e Deb 


= 


调试 
器 调 


ug: 
可 y 
使用 


dE 
E 


im 


cu 
SER 


>H > 
net 
+ 


| 
上 


qe 
yan 


ate 
dt 
i=, El 


ae 
FE 


> 
ay 


= 


X 


IH ER AS ER ER o mim: 
‘ と 


ll e IS 


Test 


在 下面 的 


你 将 看 到 
使 用 
Multithre 
adedTC 
和 Java 
PathFinde 
r 工 具 测 
试 并 发 应 


readedT 
C 测 试 
并 发 应 
用 程序 


Multithre 
adedTC 
是 一 个 
RMH, 
可 以 通过 
网 址 

http://cod 
e.google.c 
om/p/mul 
tithreaded 


= 

= 

= 
N 
Y 


IN 

| 

Sa 

+ ビ 7 
ASHES AS: 


RE 
Eh: 


FS 


hreade 
dTestC 
ase É, 
该 类 扩展 
了 JUnit 


库 的 
Assert 
类 。 可 以 
实现 如 下 
方法 。 


e ini 
tia 
liz 
e() 
: 该 
方法 

将 在 


E 


MENE 
YES 


EA AL Gt 
DESSAS 
—_ N 
oo 


mi (Hi SZ 


Et TH 


El FE Nh A 


iN 
p 


ead 
XXX 
O 
: HJ 
以 为 
测试 
1 的 
每 个 
线程 
实现 
二 
名 称 
threa 
d 关 
开头 
的 方 
法 。 
网 
如 ， 
如 果 
想 要 
测试 
dp 
x 
JE, 
就 要 
在 自 
己 的 
类 1 
实现 
三 个 
方 
法 。 
Multit 
hreade 
dTestc 
ase 类 提 
供 了 
waitFo 
rTick( 
) 方法 。 
该 方法 接 
收 你 要 等 
待 的 时 数 
作为 参 
数 。 该 方 
法 使 调用 
线程 休 
眼 ， 直 到 
内 部 时 钟 
达到 该 时 
AINIE o 


第 一 个 时 
刻 是 时 数 
为 9 的 时 
刻 。 

Multithre 


[一 个 线 


SH 
H 
L 
a 
SÍ 
ER 
Y 


PH 
Ist | FERE 
Ir 
<= 
im 


NY | 
° ml ZE 
HE 
Ir 
Tr 


m 
Aq 
EE 


创建 一 个 
Testcl 
assOk 
的 类 扩展 
Multit 


EA 
的 数据 
和 数据 
初始 值 ， 
代码 如 
下 : 


public 
class 
TestCla 
SSOKkK 
extends 
Multith 
readedT 
estCase 


{ 


private 
Data 
data; 


private 
int 
amount; 


private 
int 
initial 
Data; 


public 
TestCla 
SSOk 
(Data 
data, 
int 
amount) 


{ 


this.am 
ount=am 
ount; 


this.da 
ta=data 


r 


this.in 
itialDa 
ta=data 
.getDat 
a(); 

} 


我 们 实现 
两 个 方法 
来 模拟 两 
个 线程 的 


thread 
Add() 


方 没 
现 。 


public 
void 
threadA 
dd() { 


System. 
out.pri 
ntin("A 
dd: 

Getting 
the 

data"); 

int 

value=d 
ata.get 
Data(); 


System. 
out.pri 
ntin("A 
dd: 

Increme 
nt the 
data"); 


value+= 
amount ; 


System. 
out.pri 
ntin("A 
dd: Set 
the 

data"); 


data.se 
tData(v 
alue); 


} 


该 方法 读 
取 数 据 的 
值 ， 增 加 
HME, 3 
且 再 次 输 
出 数据 的 
值 。 第 二 
个 方法 在 
thread 
Sub( ) 
HEPI 
FH, o 


public 
void 

threadS 
ub() { 


waitFor 
Tick(1) 


r 


System. 
out.pri 
ntin("s 
ub: 
Getting 
the 
data"); 
int 
value=d 
ata.get 
Data(); 


System. 
out.pri 
ntin("s 
ub: 

Decreme 
nt the 
data"); 


value- 
=amount 


r 


System. 
out.pri 
nt1n( "S 
ub: Set 
the 

data"); 


data.se 
tData(v 
alue); 


} 
+ 


E な な 
Bot, $ 


待 時 刻 1 
。 然后， 


为 了 执行 
该 测试 ， 
可 以 使 用 
TestFr 
amewor 
k Ef 
runonc 
e() 5 


法 。 


I 


public 
class 
Mainok 


public 
static 
void 
main(St 
ring[] 
args) { 


Data 
data=ne 


W 
Data(); 


data.se 
tData(1 
0); 


TestCla 
ssOk 
ok=new 
TestCla 
ssok(da 
ta,10); 


try 
{ 


TestFra 
mework. 
runOnce 
(ok); 


catch 
(Throwa 
ble e) 


e.print 
StackTr 
ace(); 


当 测试 


始 执行 


执行 后 ， 
Multithre 
adedTC 
的 内 部 時 
钟 探 测 到 
在 


public 
void 

threadA 
dd() { 


System. 
out.pri 
ntin("A 
dd: 

Getting 


ata.get 
Data(); 


waitFor 
Tick(2) 


r 


System. 
out.pri 
ntin("A 
dd: 

Increme 
nt the 
data"); 


value+= 
amount ; 


System. 
out.pri 
ntin("A 
dd: Set 
the 

data"); 


data.se 
tData(v 
alue); 


} 


public 
void 

threads 
ub() { 


wa1tFor 
Tick(1) 


了 


System. 
out.pri 
nt1n( "S 
ub: 

Getting 
the 

data"); 

int 

value=d 
ata.get 
Data(); 


waitFor 
Tick(3) 


r 


System. 
out.pri 
nt1n( "S 
ub: 

Decreme 
nt the 


data"); 


value- 
=amount 


r 


System. 
out.pri 
ntin("s 
ub: Set 
the 

data"); 


data.se 
tData(v 
alue); 


最 后 
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mo 


da EIX 
对 测试 基 
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E 

TA 
He 
Dt 


Java 
Pathfin 
der 测 试 
并 发 应 
用 程序 


Java 
Pathfinde 


oF ME” 


MAAN 


YA 


条件 和 死 


检测 竞争 
锁 。 


可 以 帮助 
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SN 
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(DRESS EA EB 


修 政 
JPF 
的 类 
路 
径 ， 
添加 
项 目 


Au 
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+ SE DE SE RR AI DÊ 
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MS 
e 


AH 


3 > MAD BY ay 
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[HE E 


El 
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vm np E 


5 


ATAN 
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顺序 无 法 
PRUE (ER 
非 在 应 用 


> Bh 
AH 
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Ht 
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mii 
。 St H dT 
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FE 
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+ Tr 
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JConsole 
监视 常规 
Java 应 用 

+ 


HES 


SE Xt FES RE 


A i lt” 


D 
< 
o 
Eth 
Sr 


的 
Gro 
ovy 
以 及 
Scal 
a 


Javaze HY 
受 欢 迎 的 
编程 语 
言 ， 但 并 
不 是 实现 
Javak tW 
机 


languages 


» Al 


了 所 有 可 
实现 JVM 
程序 的 语 


o 1 
A X 


一 些 是 
有 语言 面 
向 JVM 的 
实现 ， 例 
如 JRuby 
(Ruby 
编程 语言 
的 实现 ) 
或 Jython 


言 和 动态 
编程 语 
言 ， 例 如 
Groovy ° 
这 些 语言 
大 多 可 了 
和 Java 语 
言 很 好 地 
未 上， 可 
以 在 这 些 
编程 语言 
中 直接 使 
JavaTT 
素 , 包括 
Thread 
对 象 或 执 
行 器 这 样 
的 并 发 元 
素 。 有 些 
语言 还 实 
现 了 目 己 
的 并 发 模 
型 。 本 章 
将 对 其 中 
三 种 语言 
提供 的 并 
发 元 素 进 
行 简要 介 
绍 。 
e Cloj 
Ure 
: 提 
供 
Ato 
m^ 
Age 
nt 等 
引用 
类 
型 ， 
以 及 
Futu 
re 和 
Pro 
mise 
等 其 
他 元 
ES o 
e Gro 
ovy 
通 


Q 
で 


RÈ T 


E E Ri 


SEE 


I 
L 


C abt x} SMH AU E 


新版 本 
(ESA 


由 
==! 
fen 
fi 


a 


Mar 
£ 


y 
E ape 
IAN 


行 编程 的 
文档 和 指 
南 。 你 可 
以 在 最 流 
行 的 Java 
IDE ( 如 
Eclipse) 
中 安 装 
Clojure 文 
持 环境 。 
男 一 个 有 
的 网 页 
JE 
http://cloj 
ure- 
doc.org 

， 可 以 在 
上 面 找 到 
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